7 Min. Lesezeit

Anthropics neue Aufschlüsselung der Abrechnung zeigt, was KI-Agenten tatsächlich kosten

Seit einem Jahr passiert bei Enterprise-KI-Budgets etwas Merkwürdiges. Unternehmen geben drastisch mehr für KI aus, obwohl die Kosten pro Einheit weiter sinken. Die durchschnittlichen Enterprise-KI-Ausgaben stiegen von 1,2 Millionen US-Dollar im Jahr 2024 auf 7 Millionen US-Dollar im Jahr 2026, ein Anstieg um 483 %, während die API-Preise pro Token im selben Zeitraum um rund das 280-Fache fielen. Diese beiden Entwicklungen müssten sich eigentlich gegenseitig aufheben. Tun sie aber nicht, und der Grund hat unmittelbar damit zu tun, wie KI-Agenten Rechenleistung verbrauchen im Vergleich zu den Chatbots, die es vor ihnen gab.

Anthropic hat diese Mathematik gerade auf eine Weise sichtbar gemacht, die sich kaum ignorieren lässt. Am 13. Mai kündigte das Unternehmen an, seine Abo-Abrechnung ab dem 15. Juni in zwei Pools aufzuteilen. Ein Pool deckt den interaktiven Chat ab, also die Art von Hin-und-her-Konversation, die die meisten Menschen mit Claude verbinden. Der andere, ein neues und separates Kreditkontingent, deckt die Nutzung des Agent SDK ab, einschließlich automatisierter Workflows, Coding-Tools von Drittanbietern und allem, was Claude ohne menschliche Eingaben in Echtzeit ausführt.

Der Max-20x-Tarif, der 200 US-Dollar pro Monat kostet, enthält jetzt 200 US-Dollar an Agent-SDK-Guthaben. Das klingt vernünftig, bis man sich ansieht, was dieselben Nutzer vor der Trennung verbraucht haben. Eine Community-Analyse der Subventionsarithmetik ergab, dass die intensivsten Sonnet-Nutzer aus einem Abo für 200 US-Dollar bis zu 35.000 US-Dollar an API-äquivalentem Wert pro Monat herauszogen. Das Verhältnis zwischen dem, was sie zahlten, und dem, was sie nutzten, lag bei 175 zu 1.

Boris Cherny, Head of Claude Code bei Anthropic, war offen dazu: „Unsere Abonnements waren nicht für die Nutzungsmuster dieser Drittanbieter-Tools ausgelegt.“ Das ist eine höfliche Art zu sagen, dass das Pauschalpreismodell nie dazu gedacht war, Agenten-Workloads in Produktionsgröße zu subventionieren, und dass es damit nicht fortfahren konnte.

Wie Anthropic hier gelandet ist

Die Zeitleiste erzählt die Geschichte eines Unternehmens, das stufenweise erkannt hat, wie untragbar die Ökonomie geworden war. Im April entfernte Anthropic Claude Code vorübergehend vollständig aus dem 20-Dollar-Pro-Tarif. Die Reaktion der Entwicklergemeinde war schnell und laut. Theo Browne, der Erfinder von T3 Code, berechnete, dass die effektiven Kosten seiner Community über Nacht um das 25-Fache stiegen, und bezeichnete den Schritt als Angriff auf das Open-Source-Tooling-Ökosystem. Anthropic nahm die Entscheidung innerhalb von 24 Stunden zurück.

Die im Mai angekündigte Aufteilung in Kreditpools war die maßvollere Korrektur. Statt den Agentenzugriff abzuschneiden, begrenzte Anthropic ihn auf einen Dollarbetrag, der den tatsächlichen API-Preisen entspricht. Das ist ein vernünftiger Kompromiss, macht aber auch eine Wahrheit sichtbar, um die die Branche bisher herumtänzelt: Flatrate-Zugang zu KI auf Agenten-Niveau war eine vorübergehende Marktbedingung, kein nachhaltiges Preismodell.

Ein dokumentierter Nutzer verbrauchte über acht Monate hinweg 10 Milliarden Token in einem Tarif für 100 US-Dollar pro Monat. Zu API-Konditionen hätte das etwa 15.000 US-Dollar gekostet. Gezahlt wurden 800 US-Dollar. Eine solche Lücke überlebt in einer Gewinn-und-Verlust-Rechnung nicht besonders lange.

Warum Agenten Token so verbrauchen

Bei der Preisdiskrepanz geht es nicht wirklich um das Geschäftsmodell von Anthropic. Es geht um einen grundlegenden Unterschied darin, wie Agenten Rechenleistung nutzen im Vergleich zu Chatbots, und die meisten Organisationen haben diesen Unterschied bisher noch nicht verinnerlicht.

Ein typischer Chatbot-Dialog besteht aus einem Prompt, einer Antwort und vielleicht ein paar Nachfragen. Ein paar tausend Token hinein, ein paar tausend heraus. Ein Agent, der eine mehrstufige Aufgabe bearbeitet, funktioniert anders. Er ruft ein Tool auf. Er liest das Ergebnis. Er entscheidet, was als Nächstes zu tun ist. Er ruft ein weiteres Tool auf. Jeder dieser Schritte erfordert, dass das Modell den gesamten Gesprächsverlauf erneut verarbeitet, bevor es die nächste Aktion generiert. Laut Forschung des Stanford Digital Economy Lab entfallen 62 % der gesamten Inferenzkosten von Agenten auf erneut gesendeten Kontext. Der Großteil dessen, wofür Sie zahlen, ist also, dass das Modell liest, was es bereits kennt.

Gartners Analyse für 2026 beziffert den Multiplikator auf das 5- bis 30-Fache: Agentische Workloads verbrauchen für vergleichbare Geschäftsergebnisse so viel mehr Rechenleistung als Standard-Chatbot-Interaktionen. In der Praxis könnte ein Chatbot, der tausend Kundenanfragen bearbeitet, X Token verwenden. Ein Agent, der dieselben tausend Fälle autonom löst, mit Tool-Calls, Retrieval-Schritten und mehrstufigen Reasoning-Ketten, könnte 15x bis 30x so viel verbrauchen.

Deshalb explodieren die Budgets, obwohl die Kosten pro Token sinken. Die Stückkosten wurden günstiger. Die Stückzahlen pro Aufgabe wurden dramatisch teurer. Und die meisten Teams haben das nicht kommen sehen, weil sie noch in Kostenmodellen aus der Chatbot-Ära dachten.

Wie die Rechnungen tatsächlich aussehen

Ein LeanOps-Audit von 30 Engineering-Teams, die Coding-Agenten einsetzen, zeichnet ein sehr konkretes Bild. Die mittlere Agentenrechnung eines Entwicklers lag bei 480 US-Dollar pro Monat. Das 90. Perzentil erreichte 1.650 US-Dollar. Ein Entwickler brachte es in einem einzigen Wochenende auf 4.200 US-Dollar, während er eine autonome Refactoring-Session laufen ließ, die länger als erwartet in der Schleife blieb.

Dasselbe Audit betrachtete ein SaaS-Unternehmen in der Wachstumsphase mit 35 Engineers. Ihre gemeinsame Rechnung für Agenteninferenz lag bei 87.000 US-Dollar pro Monat. Nachdem sie ihre Token-Nutzungsmuster geprüft und smarteres Modell-Routing eingeführt hatten, also einfachere Teilaufgaben an günstigere Modelle zu leiten, statt alles über das teuerste Modell laufen zu lassen, senkten sie die Kosten auf 24.000 US-Dollar pro Monat. Eine Reduktion um 72 %, ohne Verlust an Agentenfähigkeit.

Der größte Teil der Verschwendung fiel in drei Kategorien, die jedem bekannt vorkommen werden, der schon einmal eine Cloud-Infrastruktur-Rechnung geprüft hat:

Das Kostenmodell hat sich gerade umgedreht

Unter der Anthropic-Geschichte findet ein größerer struktureller Wandel statt, der jede Organisation betrifft, die Agenten betreibt, nicht nur Claude-Nutzer. Im Jahr 2023 entfielen etwa 40 % der Enterprise-KI-Budgets auf Inferenz. Heute liegt diese Zahl bei 85 %. Die Trainingskosten, der Posten, der früher die Debatte dominierte, wurden von den laufenden Kosten für den tatsächlichen Produktionsbetrieb von Modellen überholt.

Das kehrt das traditionelle Softwarekostenmodell um. Software war historisch teuer in der Entwicklung und günstig im Betrieb. KI-Agenten sind zunehmend günstig zu entwickeln und teuer im Betrieb. Ein Entwickler kann einen Agenten an einem Nachmittag prototypisieren. Ihn ein Jahr lang in Unternehmensgröße zu betreiben kostet mehr als seine Entwicklung je gekostet hat.

Anthropics Korrektur ist bisher das sichtbarste Signal dieses Wandels, aber sie wird nicht das letzte bleiben. Wenn das Unternehmen, das am stärksten mit entwicklerfreundlichem KI-Zugang verbunden ist, keine Pauschalpreisgestaltung für Agenten tragen kann, muss die Annahme, dass Agenten-Infrastruktur billig ist, überall neu bewertet werden.

Drei Dinge, die Sie vor dem 15. Juni tun sollten – und danach

Unabhängig davon, ob Sie Claude nutzen oder nicht: Die Ökonomie, die Anthropic gerade offengelegt hat, gilt für jeden Modellanbieter. Die Subvention war spezifisch für Anthropic. Die zugrunde liegende Kostenstruktur ist universell.

Erstens: Messen Sie, was Sie pro Aufgabe tatsächlich ausgeben. Die meisten Teams haben dafür keine Transparenz. Die LeanOps-Daten zeigten eine Kostenstreuung von 3,4x zwischen dem Median und dem 90. Perzentil innerhalb desselben Teams bei ähnlicher Arbeit. Was Sie nicht messen, können Sie nicht optimieren.

Zweitens: Leiten Sie Aufgaben an das richtige Modell weiter. Nicht jede Agentenaktion braucht Spitzenmodell-Reasoning. Klassifizierung, Extraktion, Formatierung und Template-Erstellung können auf kleineren, günstigeren Modellen laufen. Reservieren Sie die teuren Modelle für Planung, Abwägungen und komplexes mehrstufiges Reasoning. Allein das senkt die Inferenzkosten typischerweise um 40 bis 60 %.

Drittens: Setzen Sie Token-Budgets für autonome Sitzungen. Das Wochenende für 4.200 US-Dollar passierte, weil niemand eine Obergrenze gesetzt hatte. Ein Budget von 500.000 Token pro autonomem Lauf, mit einem menschlichen Kontrollpunkt, der für eine Verlängerung erforderlich ist, stoppt außer Kontrolle geratene Schleifen, bevor sie zu außer Kontrolle geratenen Rechnungen werden.

Die Ära subventionierter Agenteninferenz läuft aus. Anthropic hat es direkt gesagt, und die Zahlen geben ihnen recht. Enterprise-KI-Budgets werden weiter wachsen, aber die Lücke zwischen Organisationen, die Agentenkosten als Ingenieurdisziplin behandeln, und denen, die sie als Abo-Posten betrachten, wird sich schnell vergrößern. Die erste Gruppe wird für ein vergleichbares Ergebnis 60 bis 70 % weniger ausgeben. Die zweite wird bei Rechnungen weiter überrascht werden, bis die nächste Preiskorrektur das Gespräch erzwingt.

Die Frage ist nicht, ob KI-Agenten die Investition wert sind. Die Frage ist, ob Ihre Infrastruktur sie zu Kosten betreibt, die den Geschäftsfall tatsächlich tragen.

Heute starten

Starten Sie mit KI-Agenten zur Automatisierung von Prozessen

Nutzen Sie jetzt unsere Plattform und beginnen Sie mit der Entwicklung von KI-Agenten für verschiedene Arten von Automatisierungen

Heute starten

Starten Sie mit KI-Agenten zur Automatisierung von Prozessen

Nutzen Sie jetzt unsere Plattform und beginnen Sie mit der Entwicklung von KI-Agenten für verschiedene Arten von Automatisierungen