4 Min. Lesezeit
GPT-5.4 Mini und Nano: OpenAI hat gerade die Multi-Model-Agenten-Architektur bestätigt

OpenAI hat diese Woche GPT-5.4 mini und nano veröffentlicht — die neuesten Ergänzungen einer Modellreihe, die immer bewusster gegliedert wird. Die Hauptzahlen sind stark: GPT-5.4 mini erzielt 54,4 % auf SWE-Bench Pro gegenüber 45,7 % für GPT-5 mini, läuft mehr als 2-mal schneller und nähert sich in mehreren Bewertungen der Leistung des vollständigen GPT-5.4-Modells. GPT-5.4 nano liegt darunter und ist optimiert für Klassifizierung, Datenextraktion, Ranking und einfache Codierungsaufgaben zu 0,20 $ pro Million Eingabetoken.
Die Spezifikationen sind wichtig, aber das bedeutendere Signal ist der Anwendungsfall, den OpenAI gewählt hat. Die Ankündigung beschreibt diese Modelle ausdrücklich als für Subagentenrollen in hierarchischen KI-Systemen gebaut — wo ein größeres Modell plant und koordiniert, während kleinere Modelle schnell parallel ausführen. Dieses architektonische Muster hat reale Auswirkungen darauf, wie Unternehmensteams über den Aufbau und Betrieb von Multi-Agenten-Systemen denken sollten.
Die Subagenten-Stufe ist jetzt explizit
Frühere Modellveröffentlichungen behandelten kleinere Modelle als kostengünstigere Versionen größerer — gleiche Anwendungsfälle, geringere Fähigkeit und Preis. GPT-5.4 mini und nano werden anders positioniert. OpenAI beschreibt sie als optimiert speziell für die Rolle des Executors in Multimodell-Systemen: schnell, werkzeugzuverlässig, ausreichend für klar definierte Teilaufgaben, aber nicht das zentrale Denkmodell eines Systems.
Die Codex-Integration macht dies konkret. GPT-5.4 übernimmt die Planung und das endgültige Urteil, während es an GPT-5.4 mini Subagenten delegiert, die engere Aufgaben parallel abwickeln — eine Codebasis durchsuchen, eine große Datei prüfen, unterstützende Dokumente verarbeiten. GPT-5.4 mini nutzt 30 % des GPT-5.4-Kontingents, sodass der parallele Betrieb mehrerer Subagenten kostentragfähig wird.
OpenAIs Darstellung: "Anstatt ein Modell für alles zu verwenden, können Entwickler Systeme erstellen, bei denen größere Modelle entscheiden, was zu tun ist, und kleinere Modelle schnell im großen Maßstab ausführen." Das entspricht ziemlich genau dem, wie produktionsgerechte Multi-Agenten-Systeme tatsächlich funktionieren müssen.
Was die Benchmark-Zahlen in der Praxis bedeuten
Die Leistungsunterschiede sind nicht uniform, und das sollte sorgfältig gelesen werden.
Auf SWE-Bench Pro ist GPT-5.4 mini (54,4 %) nah dran an GPT-5.4 (57,7 %) und weit vor GPT-5 mini (45,7 %). Auf OSWorld-Verified für die Computernutzung erreicht mini (72,1 %) fast das volle Modell (75,0 %). Dies sind die Zahlen, die für agentische Aufgaben — Codierung, Werkzeugnutzung, multimodales Denken — wichtig sind.
Die Unterschiede sind bei Langkontextaufgaben größer. Auf MRCR v2 mit 128K-256K Kontext fällt mini auf 33,6 % gegenüber GPT-5.4's 79,3 %. Das zeigt, wo mini nicht passt: Aufgaben, die tiefes Denken über sehr lange Dokumente erfordern. Für engere, gut abgesteckte Teilaufgaben — die Rolle des Subagenten — hält das Leistungsprofil.
GPT-5.4 nano tauscht mehr Fähigkeit für Geschwindigkeit und Kosten ein. Zu 0,20 $ / 1M Eingabetoken ist es für hochvolumige Klassifizierungs- und Routing-Arbeiten ausgelegt. Seine 52,4 % auf SWE-Bench Pro schlagen immer noch, wo GPT-5 mini war, was es zu einem bedeutenden Upgrade für einfache Codierteilaufgaben selbst zu Nano-Preisen macht.
Werkzeugnutzung ist die unterschätzte Fähigkeit
Eine Zahl, die Aufmerksamkeit verdient: Werkzeugaufruf. GPT-5.4 mini erreicht 93,4 % auf τ2-bench gegenüber 74,1 % von GPT-5 mini und 57,7 % auf MCP Atlas gegenüber 47,6 %. Für Unternehmens-AI-Agenten ist Werkzeugnutzungszuverlässigkeit oft die bindende Einschränkung. Ein Agent, der gut denkt, aber Werkzeuge falsch aufruft, erzeugt Ausfälle, die schwer zu erkennen und schwerer zu debuggen sind. Die Verbesserung der Werkzeugaufrufgenauigkeit bei mini-Latenzen ist wahrscheinlich praktischer signifikanter als die headline die Kodierungs-Benchmarks für die meisten Produktions-Workflows.
Preisgestaltung und Verfügbarkeit
GPT-5.4 mini: $0,75 / 1M Eingaben, $4,50 / 1M Ausgaben. 400k Kontextfenster. Ab heute verfügbar in der API, Codex und ChatGPT. Unterstützt Text- und Bildeingaben, Werkzeugnutzung, Funktionsaufruf, Websuche, Dateisuche, Computernutzung und Fähigkeiten.
GPT-5.4 nano: $0,20 / 1M Eingaben, $1,25 / 1M Ausgaben. Nur API.
Zum Vergleich, GPT-5.4 mini stellt eine signifikante Kostenreduktion im Vergleich zum vollständigen Betrieb auf GPT-5.4 dar, während nahe zu Parität bei den agentischen Aufgaben, die für die Unternehmensautomation am relevantsten sind, gehalten wird.
Was das für die Unternehmens-KI-Architektur bedeutet
Die praktische Implikation ist, dass der Fall für hierarchische Multi-Agenten-Architekturen gerade stärker geworden ist. Einen hochfähigen Orchestrator neben schnelleren, günstigeren Executoren zu betreiben, wird jetzt durch die zugrunde liegenden Modellfähigkeiten besser unterstützt — und von OpenAI ausdrücklich als Designmuster validiert. Für Teams, die AI-Agenten in Produktion betreiben, verstärkt dies einige Designprinzipien: Teilaufgaben eng genug spezifizieren, damit kleinere Modelle zuverlässig ausführen können, komplexes Denken und endgültige Urteile beim Orchestrator behalten und Werkzeugoberflächen modellagnostisch gestalten, damit Sie Aufgaben an die richtige Stufe routen können, wenn sich die Fähigkeiten entwickeln.
Die Modelllandschaft bewegt sich schnell. Was GPT-5.4 mini heute zu Mini-Preisen tut, hätte vor zwölf Monaten ein Vollgrößenmodell erfordert. Teams, die ihrem Agentenarchitekturen um Fähigkeitsebenen — statt um spezifische Modelle — entwerfen, haben mehr Spielraum, von dieser Entwicklung zu profitieren.





