5 Min. Lesezeit

Das 19-Modell-Problem: Warum sich Enterprise AI zu einer Multi-Modell-Orchestrierung entwickelt

Geflochtene Kabel, die die Multi-Modell-Orchestrierung in der Unternehmens-KI symbolisieren

Fragen Sie einen CTO eines Unternehmens, welches KI-Modell sein Unternehmen verwendet, und die ehrliche Antwort lautet wahrscheinlich „alle davon“.

Die Marketingabteilung nutzt Claude für langformatige Inhalte. Die Ingenieursabteilung verwendet GPT-4o für die Codegenerierung. Der Kundensupport hat im letzten Quartal ein abgestimmtes Llama-Modell eingeführt. Das Data-Science-Team hat gerade begonnen, Gemini 2.5 Pro für multimodale Analysen zu testen. Die Finanzabteilung bewertet Mistral für kostenempfindliche Dokumentenverarbeitung. Niemand hat dies koordiniert. Niemand hat es geplant. Es ist einfach passiert.

Dies ist das 19-Modell-Problem. Und laut IDCs AI FutureScape 2026 werden bis 2028 70 % der führenden KI-gesteuerten Unternehmen fortschrittliche Multi-Tool-Architekturen verwenden, um das Modell-Routing dynamisch über verschiedene Modelle hinweg zu verwalten. Die Frage ist nicht mehr, ob Unternehmen mehrere Modelle betreiben werden. Es ist, ob sie sie gezielt verwalten oder das Wachstum sich selbst überlassen werden.

Wie Unternehmen hierher gekommen sind

Der Übergang von „Welches Modell sollen wir wählen“ zu „Wie verwalten wir alle“ erfolgte schneller, als die meisten IT-Leiter erwartet hatten.

Drei Kräfte haben dies angetrieben. Erstens die Modellspezialisierung. Kein einzelnes Modell führt in jeder Aufgabe. Claude glänzt bei nuancierter Argumentation und Langkontextanalyse. GPT-4o dominiert bei Coding-Benchmarks. Gemini verarbeitet multimodale Eingaben nativ. Open-Source-Modelle wie Llama und Mistral bieten Kostenvorteile für Aufgaben mit hohem Volumen und geringer Komplexität. Teams entdeckten dies durch Experimente und übernahmen das Modell, das für ihren spezifischen Anwendungsfall am besten geeignet war.

Zweitens das Anbieterrisiko. Die Ereignisse Ende Februar 2026 zeigten, was passiert, wenn Unternehmen von einem einzigen Anbieter abhängig sind. Anthropic wurde von Bundesverträgen ausgeschlossen. Claude fiel unter der Nachfrage für drei Stunden aus. Organisationen, die auf ein Modell festgelegt waren, hatten keinen Ausweichplan. Diejenigen, die mehrere Modelle betrieben, funktionierten weiter.

Drittens übertraf die Einführung die Steuerung. Gartner prognostiziert, dass bis Ende 2026 40 % der Unternehmensanwendungen KI-Agenten für spezifische Aufgaben einbetten werden, gegenüber weniger als 5 % im Jahr 2025. Jeder dieser Agenten läuft potenziell auf einem anderen Modell, ausgewählt von einem anderen Team, mit unterschiedlichen Kosten- und Compliance-Auswirkungen. Die AI-Umfrage von McKinsey aus dem Jahr 2024 ergab, dass 78 % der Organisationen jetzt regelmäßig KI nutzen, gegenüber 55 % im Vorjahr. Dieses Wachstum brachte eine Modellvielfalt mit sich.

Die Kosten unkontrollierten Modellwachstums

Der Betrieb mehrerer Modelle ohne Orchestrierung ist teuer. Laut der Analyse von AI Pricing Master 2026 überbezahlen Organisationen, die ein einzelnes LLM für alle Aufgaben verwenden, um 40–85 % im Vergleich zu denen, die intelligentes Routing nutzen. Der Grund ist einfach: Eine einfache FAQ-Anfrage an GPT-4o zu senden, kostet ungefähr 30-mal mehr, als sie an ein kleineres Modell zu senden, das die Aufgabe ebenso gut erledigt.

Das Kostenproblem wird verstärkt, weil Unternehmensteams selten optimieren, sobald sie eingesetzt haben. Die Ingenieursabteilung wählt während der Entwicklung ein Modell, kodiert den API-Aufruf hart und zieht weiter. Sechs Monate später verarbeitet dasselbe Modell Millionen von Anfragen, die eine günstigere Alternative ohne Qualitätsunterschied bearbeiten könnte. Multiplizieren Sie das mit 15 verschiedenen Abteilungen, von denen jede ihr eigenes Modell betreibt, und der Abfall summiert sich schnell.

Neben den Kosten schaffen unkontrollierte Multi-Modell-Umgebungen Governance-Lücken. Jedes Modell hat unterschiedliche Datenbearbeitungsrichtlinien, unterschiedliche Compliance-Zertifikate und unterschiedliche Protokollierungsfähigkeiten. Wenn die high-risk Bestimmungen der EU-Gesetzgebung zu KI im August 2026 vollständig in Kraft tritt, müssen Unternehmen Monitoring und Dokumentation über jedes Produktionsmodell hinweg nachweisen können. Das ist schwer zu tun, wenn niemand eine vollständige Inventarliste besitzt.

Wie Multi-Modell-Orchestrierung eigentlich aussieht

Die Antwort der Branche auf Modellwachstum ist Orchestrierung: eine Schicht, die zwischen Ihren Anwendungen und den Modellen sitzt, die sie aufrufen, wobei jede Anfrage basierend auf Aufgabe, Kostenbeschränkungen und Qualitätsanforderungen an das richtige Modell weitergeleitet wird.

IDC beschreibt dies als den Wechsel von „mixture of experts“ Architekturen, die von einzelnen Anbietern bereitgestellt werden, zu unternehmensverwalteten Routing-Lösungen über Anbieter hinweg. Statt OpenAI oder Anthropic zu entscheiden, welches interne Modell Ihre Anfrage bearbeitet, steuert das Unternehmen die Routing-Logik selbst.

In der Praxis funktioniert dies durch eine Kaskadenstrategie. Eine einfache Kundenanfrage wird zuerst an ein kleines, schnelles, kostengünstiges Modell gesendet. Wenn die Qualitätsprüfung bestanden wird, wird die Antwort versendet. Wenn sie fehlschlägt, wird die Anfrage an ein größeres Modell eskaliert. Das System optimiert für den Normalfall, während es die Qualität für Randfälle beibehält.

Eine Präsentation von Databricks auf dem Data + AI Summit 2025 zeigte diesen Ansatz und wie Modell-Routing-Agenten gleichzeitig Kosten und Nutzerwert optimieren können. Die Architektur behandelt Modelle als austauschbare Komponenten, anstatt als feste Abhängigkeiten.

Für Unternehmen, die bereits agentische Workflows betreiben, fügt Multi-Modell-Orchestrierung eine weitere Ebene hinzu: die Fähigkeit, verschiedene Schritte in einem Workflow an verschiedene Modelle weiterzuleiten, basierend darauf, was jeder Schritt benötigt. Ein Dokumenteneingabeschritt könnte ein Vision-Modell verwenden, der Analyseschritt ein Argumentationsmodell und der Zusammenfassungsschritt ein schnelles, kostengünstiges Modell. Alles koordiniert durch eine einzige Orchestrierungsschicht.

Was sich für die Unternehmensarchitektur ändert

Multi-Modell-Orchestrierung erzwingt drei architektonische Entscheidungen, die die meisten Unternehmen noch nicht getroffen haben.

Prompt-Portabilität

Prompts, die für ein Modell abgestimmt sind, übertragen sich nicht einfach auf ein anderes. Unternehmen, die Multi-Modell-Routing einführen, benötigen Prompt-Management-Systeme, die modell-spezifische Versionen desselben funktionalen Prompts beibehalten. Hier unterschätzen viele Teams den Aufwand. Ein Prompt, der auf Claude Sonnet 4.6 gut funktioniert, kann auf GPT-4o leicht unterschiedliche Ergebnisse produzieren, und diese Unterschiede sind wichtig, wenn die Ausgabe in einen nachgelagerten Geschäftsprozess einfließt.

Einheitliche Beobachtbarkeit

Wenn Anfragen über mehrere Modelle geleitet werden, muss das Monitoring alle umfassen. Kostenerfassung, Qualitätsbewertung, Latenzmessung und Compliance-Protokollierung müssen über alle Anbieter hinweg durch ein einziges Dashboard funktionieren. Dies von Grund auf neu zu erstellen, ist ein erheblicher technischer Aufwand, weshalb plattformbasierte Orchestrierung zur Standardmethode wird.

Modellbewertung als kontinuierlicher Prozess

Neue Modelle werden monatlich eingeführt. Bestehende Modelle aktualisieren sich ohne Benachrichtigung. Das Unternehmen, das seinen Modellstapel im Januar gewählt hat, kann bis Juni bereits eine suboptimale Konfiguration betreiben. Multi-Modell-Architekturen benötigen systematische Bewertungsprozesse, die neue Modelle gegen Produktionsworkloads testen und automatisch bessere Optionen einfügen.

Wohin es als nächstes geht

Der Modell-Routing-Markt bewegt sich von der frühen Einführung zu einer Infrastruktur-Erwartung. IDC prognostiziert bis 2028 eine 70%ige Adoption unter führenden KI-Unternehmen. Gartners Prognose, dass 80 % der Unternehmenssoftware bis 2030 multimodal sein wird, fügt eine weitere Dimension hinzu: Da Anwendungen Text, Bilder, Videos und Audio handhaben müssen, stärkt der Bedarf an Multi-Modell-Routing, da kein einzelnes Modell über alle Modalitäten führt.

Die Unternehmen, die diese Fähigkeit jetzt aufbauen, gewinnen drei Vorteile. Erstens die Kostenoptimierung durch intelligentes Routing, wodurch KI-Ausgaben reduziert werden, indem Routineaufgaben an günstigere Modelle weitergeleitet werden. Zweitens die Resilienz durch Anbieterredundanz, die sicherstellt, dass kein einzelner Ausfall ihre KI-Operationen unterbricht. Drittens die Governance durch zentrale Sichtbarkeit, was die Einhaltung über jedes Modell in ihrem Stack hinweg sicherstellt.

Das 19-Modell-Problem wird nicht verschwinden. Die Zahl steigt. Die Organisationen, die Multi-Modell-Orchestrierung als Infrastruktur behandeln, anstatt als Nachgedanken, werden ihre KI-Agenten skalieren, ohne ihre Management-Belastung damit zu skalieren.

Heute starten

Starten Sie mit KI-Agenten zur Automatisierung von Prozessen

Nutzen Sie jetzt unsere Plattform und beginnen Sie mit der Entwicklung von KI-Agenten für verschiedene Arten von Automatisierungen

Heute starten

Starten Sie mit KI-Agenten zur Automatisierung von Prozessen

Nutzen Sie jetzt unsere Plattform und beginnen Sie mit der Entwicklung von KI-Agenten für verschiedene Arten von Automatisierungen