6 Min. Lesezeit
Das 19-Modell-Problem: Warum sich Enterprise AI zu einer Multi-Modell-Orchestrierung entwickelt

Fragen Sie einen CTO eines Unternehmens, welches KI-Modell deren Firma verwendet, und die ehrliche Antwort ist wahrscheinlich "alle von ihnen".
Das Marketing arbeitet mit Claude für langformatige Inhalte. Die Technik verwendet GPT-4o für die Codegenerierung. Der Kundensupport hat im letzten Quartal ein feinabgestimmtes Llama-Modell eingesetzt. Das Data-Science-Team hat gerade begonnen, Gemini 2.5 Pro für multimodale Analysen zu testen. Die Finanzabteilung evaluiert Mistral für kostenempfindliche Dokumentenverarbeitung. Niemand koordinierte das. Niemand plante es. Es passierte einfach.
Dies ist das 19-Modell-Problem. Und laut IDCs 2026 AI FutureScape werden bis 2028 70 % der führenden KI-getriebenen Unternehmen fortschrittliche Multi-Tool-Architekturen verwenden, um Modell-Routing dynamisch über verschiedene Modelle hinweg zu verwalten. Die Frage ist nicht mehr, ob Unternehmen mehrere Modelle betreiben werden. Es geht darum, ob sie sie bewusst managen oder den Wildwuchs sich selbst überlassen.
Wie Unternehmen hierher gelangten
Der Übergang von "welches Modell sollten wir wählen" zu "wie verwalten wir sie alle" geschah schneller, als die meisten IT-Leiter erwartet hatten.
Drei Kräfte haben es vorangetrieben. Erstens die Modellspezialisierung. Kein einzelnes Modell führt bei jeder Aufgabe. Claude zeichnet sich durch nuanciertes Denken und Langkontextanalysen aus. GPT-4o dominiert bei Codierbenchmarks. Gemini verarbeitet multimodale Eingaben nativ. Open-Source-Modelle wie Llama und Mistral bieten Kostenvorteile für große Mengen an weniger komplexen Aufgaben. Die Teams entdeckten dies durch Experimente und übernahmen das Modell, das für ihren spezifischen Anwendungsfall am besten funktionierte.
Zweitens das Anbieterrisiko. Die Ereignisse Ende Februar 2026 zeigten, was passiert, wenn Unternehmen von einem einzigen Anbieter abhängig sind. Anthropic wurde von staatlichen Verträgen ausgeschlossen. Claude fiel für drei Stunden unter der Nachfrage aus. Organisationen, die auf ein Modell festgelegt waren, hatten keinen Rückfallplan. Diejenigen, die mehrere Modelle betrieben, arbeiteten weiter.
Drittens überholte die Einführung die Governance. Gartner prognostiziert, dass 40 % der Unternehmensanwendungen bis Ende 2026 aufgabenspezifische KI-Agenten integrieren werden, gegenüber weniger als 5 % im Jahr 2025. Jede dieser Agenten läuft potenziell auf einem anderen Modell, ausgewählt von einem anderen Team, mit unterschiedlichen Kosten- und Compliance-Bedingungen. McKinseys AI-Befragung 2024 ergab, dass 78 % der Organisationen nun regelmäßig KI einsetzen, gegenüber 55 % im Jahr zuvor. Dieses Wachstum brachte Modellvielfalt mit sich.
Die Kosten unkontrollierter Modellwildwuchs
Das Betreiben mehrerer Modelle ohne Orchestrierung ist teuer. Laut der Analyse von AI Pricing Master 2026 überbezahlen Organisationen, die ein einziges LLM für alle Aufgaben verwenden, um 40-85 % im Vergleich zu denen, die intelligentes Routing nutzen. Der Grund ist einfach: Eine einfache FAQ-Abfrage an GPT-4o zu senden, kostet etwa 30-mal mehr, als sie an ein kleineres Modell zu senden, das die Aufgabe genauso gut erledigt.
Das Kostenproblem verschärft sich, weil Unternehmensgruppen selten optimieren, sobald sie ein Modell implementiert haben. Die Technik wählt ein Modell während der Entwicklung, härtet den API-Aufruf ab und geht weiter. Sechs Monate später verarbeitet dasselbe Modell Millionen von Anfragen, die eine preisgünstigere Alternative ohne Qualitätsunterschied bewältigen könnte. Multiplizieren Sie das mit 15 verschiedenen Abteilungen, von denen jede ihr eigenes Modell betreibt, und der Abfall summiert sich schnell.
Über die Kosten hinaus schaffen unkontrollierte Multi-Modell-Umgebungen Governance-Lücken. Jedes Modell hat andere Datenschutzrichtlinien, unterschiedliche Compliance-Zertifizierungen und unterschiedliche Protokollierungsfähigkeiten. Wenn die EU-KI-Verordnung ihre volles Inkrafttreten im August 2026 erreicht, müssen Unternehmen den Überblick und die Dokumentation über jedes Modell in der Produktion nachweisen. Das ist schwer zu tun, wenn niemand eine vollständige Bestandsaufnahme hat.
Wie Multi-Modell-Orchestrierung tatsächlich aussieht
Die Antwort der Branche auf den Modellwildwuchs ist Orchestrierung: eine Ebene, die zwischen Ihren Anwendungen und den Modellen steht, die sie aufrufen, und jede Anfrage basierend auf der Aufgabe, Kostenbeschränkungen und Qualitätsanforderungen an das richtige Modell weiterleitet.
IDC beschreibt dies als den Übergang von "Mixture of Experts"-Architekturen, die von einzelnen Anbietern geliefert werden, zu unternehmensgesteuerten Routen über Anbieter hinweg. Anstatt dass OpenAI oder Anthropic entscheidet, welches interne Modell Ihre Anfrage bearbeitet, kontrolliert das Unternehmen selbst die Routing-Logik.
In der Praxis funktioniert das durch eine Kaskadenstrategie. Eine einfache Kundenfrage wird zuerst an ein kleines, schnelles, günstiges Modell gesendet. Wenn die Qualitätskontrolle bestanden wird, wird die Antwort geliefert. Wenn nicht, wird die Anfrage an ein größeres Modell eskaliert. Das System optimiert für den Normalfall, während die Qualität für Randfälle erhalten bleibt.
Eine Databricks-Präsentation auf dem Data + AI Summit 2025 demonstrierte diesen Ansatz und zeigte, wie Modell-Routing-Agenten gleichzeitig Kosten und Nutzerwert optimieren können. Die Architektur behandelt Modelle als austauschbare Komponenten und nicht als feste Abhängigkeiten.
Für Unternehmen, die bereits agentische Workflows betreiben, fügt die Multi-Modell-Orchestrierung eine weitere Ebene hinzu: die Fähigkeit, verschiedene Schritte in einem Workflow an verschiedene Modelle zu leiten, basierend darauf, was jeder Schritt erfordert. Ein Dokumentenaufnahme-Schritt könnte ein Visionsmodell verwenden, der Analyseschritt ein Denkmodell und der Zusammenfassungsschritt ein schnelles, günstiges Modell. Alles koordiniert durch eine einzige Orchestrierungsebene.
Was sich dadurch für die Unternehmensarchitektur ändert
Multi-Modell-Orchestrierung erzwingt drei architektonische Entscheidungen, die die meisten Unternehmen noch nicht getroffen haben.
Prompt-Portabilität
Prompts, die für ein Modell abgestimmt sind, lassen sich nicht einfach auf ein anderes übertragen. Unternehmen, die Multi-Modell-Routing übernehmen, benötigen Prompt-Management-Systeme, die modell-spezifische Versionen desselben funktionalen Prompts beibehalten. Hier unterschätzen viele Teams den Aufwand. Ein Prompt, der auf Claude Sonnet 4.6 gut funktioniert, kann auf GPT-4o subtil unterschiedliche Ausgaben erzeugen, und diese Unterschiede sind wichtig, wenn die Ausgabe in einen nachgelagerten Geschäftsprozess eingespeist wird.
Vereinheitlichte Beobachtbarkeit
Wenn Anfragen über mehrere Modelle geroutet werden, muss die Überwachung all diese Modelle umfassen. Kostenverfolgung, Qualitätsbewertung, Latenzmessung und Compliance-Protokollierung müssen alle über Anbieter hinweg durch eine einheitliche Benutzeroberfläche funktionieren. Dies von Grund auf neu aufzubauen, ist ein erheblicher technischer Aufwand, weshalb plattformübergreifende Orchestrierung zur Standardlösung wird.
Modellbewertung als kontinuierlicher Prozess
Neue Modelle werden monatlich eingeführt. Bestehende Modelle werden ohne Vorankündigung aktualisiert. Das Unternehmen, das seinen Modellstapel im Januar ausgewählt hat, könnte bis Juni in einer suboptimalen Konfiguration arbeiten. Multi-Modell-Architekturen benötigen systematische Bewertungsprozesse, die neue Modelle gegen Arbeitslasten in der Produktion testen und bessere Optionen automatisch einbeziehen.
Wohin es als Nächstes geht
Der Markt für Modell-Routing bewegt sich von der frühen Einführung hin zur Infrastruktur-Erwartung. IDC sagt voraus, dass bis 2028 70 % der führenden KI-Unternehmen dies adaptiert haben werden. Gartners Projektion, dass 80 % der Unternehmenssoftware bis 2030 multimodal sein wird, fügt eine weitere Dimension hinzu: Da Anwendungen Text, Bilder, Video und Audio handhaben müssen, wird der Fall für Multi-Modell-Routing gestärkt, weil kein einzelnes Modell in allen Modalitäten führt.
Die Unternehmen, die diese Fähigkeit jetzt aufbauen, gewinnen drei Vorteile. Erstens die Kostenoptimierung durch intelligentes Routing, welches den KI-Aufwand reduziert, indem Routineaufgaben an preiswertere Modelle geleitet werden. Zweitens die Resilienz durch Anbieterredundanz, welche sicherstellt, dass kein einzelner Ausfall ihren KI-Betrieb stoppt. Drittens die Governance durch zentrale Transparenz, welche die Einhaltung der Vorschriften über jedes Modell im Stack gewährleistet.
Das 19-Modell-Problem verschwindet nicht. Die Zahl steigt weiter an. Die Organisationen, die Multi-Modell-Orchestrierung als Infrastruktur statt als nachträglicher Einfall behandeln, sind diejenigen, die ihre KI-Agenten skalieren können, ohne die Verwaltungsbelastung mitzuskalieren.





