4 Min. Lesezeit

GPT-5.4 Mini und Nano: OpenAI hat gerade die Multi-Model-Agenten-Architektur bestätigt

OpenAI hat diese Woche GPT-5.4 mini und nano veröffentlicht — die neuesten Ergänzungen in einer Modellfamilie, die zunehmend bewusst in Stufen gegliedert wird. Die Schlagzeilenzahlen sind stark: GPT-5.4 mini erzielt 54,4 % auf SWE-Bench Pro gegenüber 45,7 % für GPT-5 mini, ist mehr als 2x schneller und nähert sich in mehreren Evaluierungen der Leistung des vollständigen GPT-5.4-Modells an. GPT-5.4 nano liegt darunter und ist für Klassifizierung, Datenextraktion, Ranking und einfache Coding-Aufgaben zu $0.20 pro Million Input-Token optimiert.

Die Spezifikationen sind wichtig, aber das aussagekräftigere Signal ist die von OpenAI gewählte Einordnung des Anwendungsfalls. In der Ankündigung werden diese Modelle ausdrücklich als für Subagenten-Rollen in hierarchischen KI-Systemen entwickelt beschrieben — wobei ein größeres Modell plant und koordiniert, während kleinere Modelle Aufgaben schnell parallel ausführen. Dieses Architekturmuster hat echte Auswirkungen darauf, wie Enterprise-Teams über den Aufbau und Betrieb von Multi-Agent-Systeme nachdenken sollten.

Die Subagenten-Ebene ist jetzt explizit

Frühere Modellveröffentlichungen behandelten kleinere Modelle als kostengünstigere Versionen größerer Modelle — dieselben Anwendungsfälle, geringere Fähigkeiten und niedrigerer Preis. GPT-5.4 mini und nano werden anders positioniert. OpenAI beschreibt sie ausdrücklich als speziell für die Ausführungsrolle in Multi-Modell-Systemen optimiert: schnell, zuverlässig beim Einsatz von Tools, leistungsfähig genug für klar definierte Teilaufgaben, aber nicht das Reasoning-Zentrum eines Systems.

Die Codex-Integration macht das konkret. GPT-5.4 übernimmt Planung und abschließende Bewertung, während es an GPT-5.4-mini-Subagenten delegiert, die engere Aufgaben parallel übernehmen — das Durchsuchen einer Codebasis, die Prüfung einer großen Datei, die Verarbeitung unterstützender Dokumente. GPT-5.4 mini verbraucht 30 % des GPT-5.4-Kontingents, sodass der parallele Betrieb mehrerer Subagenten kostenseitig praktikabel wird.

OpenAIs Formulierung: "Anstatt ein Modell für alles zu verwenden, können Entwickler Systeme zusammensetzen, in denen größere Modelle entscheiden, was zu tun ist, und kleinere Modelle schnell in großem Maßstab ausführen." Das kommt der tatsächlichen Arbeitsweise produktionsreifer Multi-Agent-Systeme ziemlich nahe.

Was die Benchmark-Zahlen in der Praxis bedeuten

Die Leistungsunterschiede sind nicht einheitlich, und das sollte man genau lesen.

Bei SWE-Bench Pro liegt GPT-5.4 mini (54,4 %) nahe bei GPT-5.4 (57,7 %) und deutlich vor GPT-5 mini (45,7 %). Bei OSWorld-Verified für den Computereinsatz liegt mini (72,1 %) fast gleichauf mit dem vollständigen Modell (75,0 %). Das sind die Zahlen, die für agentische Aufgaben zählen — Coding, Tool-Nutzung, multimodales Reasoning.

Die Abstände sind bei Langkontext-Aufgaben größer. Bei MRCR v2 mit 128K–256K Kontext fällt mini auf 33,6 % gegenüber 79,3 % von GPT-5.4. Das zeigt, wo mini nicht die richtige Wahl ist: bei Aufgaben, die tiefes Reasoning über sehr lange Dokumente hinweg erfordern. Für engere, klar abgegrenzte Teilaufgaben — die Subagenten-Rolle — bleibt das Leistungsprofil passend.

GPT-5.4 nano tauscht mehr Fähigkeiten gegen Geschwindigkeit und Kosten ein. Zu $0.20/1M Input-Token ist es für volumenstarke Klassifizierungs- und Routing-Aufgaben ausgelegt. Seine 52,4 % auf SWE-Bench Pro liegen immer noch über dem, was GPT-5 mini zuvor erreicht hat, und machen es selbst zum Nano-Preis zu einem sinnvollen Upgrade für einfache Coding-Teilaufgaben.

Tool-Nutzung ist die unterschätzte Fähigkeit

Ein Wert, der Aufmerksamkeit verdient: Tool-Aufrufe. GPT-5.4 mini erreicht 93,4 % auf τ2-bench gegenüber 74,1 % bei GPT-5 mini und 57,7 % auf MCP Atlas gegenüber 47,6 %. Für Enterprise KI-Agenten ist die Zuverlässigkeit bei der Tool-Nutzung oft der entscheidende Engpass. Ein Agent, der gut schlussfolgert, aber Tools falsch aufruft, erzeugt Fehler, die schwer zu erkennen und noch schwerer zu debuggen sind. Die Verbesserung der Genauigkeit beim Tool-Calling bei mini-Latenzen ist für die meisten Produktions-Workflows wahrscheinlich praktischer bedeutsam als die Schlagzeilen-Benchmarks im Coding-Bereich.

Preisgestaltung und Verfügbarkeit

GPT-5.4 mini: $0.75/1M Eingabe-Token, $4.50/1M Ausgabe-Token. Kontextfenster von 400k. Heute verfügbar in der API, in Codex und in ChatGPT. Unterstützt Text- und Bildeingaben, Tool-Nutzung, Funktionsaufrufe, Websuche, Dateisuche, Computereinsatz und Skills.

GPT-5.4 nano: $0.20/1M Eingabe-Token, $1.25/1M Ausgabe-Token. Nur über die API verfügbar.

Zum Vergleich: GPT-5.4 mini bedeutet eine erhebliche Kostensenkung gegenüber dem Betrieb aller Aufgaben auf GPT-5.4, während es bei den für Enterprise-Automatisierung relevantesten agentischen Aufgaben nahezu gleichzieht.

Was das für die Enterprise-KI-Architektur bedeutet

Die praktische Implikation ist, dass das Argument für hierarchische Multi-Agent-Architekturen gerade noch stärker geworden ist. Einen hochfähigen Orchestrator zusammen mit schnelleren, günstigeren Ausführungsmodellen zu betreiben, wird nun durch die zugrunde liegenden Modellfähigkeiten besser unterstützt — und von OpenAI ausdrücklich als Designmuster bestätigt. Für Teams, die KI-Agenten in der Produktion betreiben, unterstreicht das einige Designprinzipien: Teilaufgaben so eng zu schneiden, dass kleinere Modelle sie zuverlässig ausführen können, komplexes Reasoning und die abschließende Bewertung beim Orchestrator zu belassen und Tool-Schnittstellen modellagnostisch zu gestalten, damit Aufgaben je nach weiterentwickelter Fähigkeit an die passende Stufe geroutet werden können.

Die Modelllandschaft entwickelt sich rasant. Was GPT-5.4 mini heute zum Mini-Preis leistet, hätte vor zwölf Monaten ein Full-Size-Modell erfordert. Teams, die ihre Agentenarchitekturen an Fähigkeitsstufen ausrichten — statt an spezifischen Modellen — haben mehr Spielraum, von dieser Entwicklung zu profitieren.

Heute starten

Starten Sie mit KI-Agenten zur Automatisierung von Prozessen

Nutzen Sie jetzt unsere Plattform und beginnen Sie mit der Entwicklung von KI-Agenten für verschiedene Arten von Automatisierungen

Heute starten

Starten Sie mit KI-Agenten zur Automatisierung von Prozessen

Nutzen Sie jetzt unsere Plattform und beginnen Sie mit der Entwicklung von KI-Agenten für verschiedene Arten von Automatisierungen