14.05.2026

7 Min. Lesezeit

Das Kontextfenster Ihres KI-Agenten ist RAM, nicht Speicher. Das erklärt die meisten Produktionsausfälle.

von

Fredrik Falk

Kategorie

KI-Agenten

Artikel teilen

In großem Maßstab ist der Engpass in der KI-Agent-Leistung fast nie das Modell. Es sind die Informationen, auf die das Modell zugreifen kann, wann es darauf zugreifen kann und wie viel davon zu einem bestimmten Zeitpunkt in das Fenster passt.

Jedes große Sprachmodell hat ein Kontextfenster. GPT-4o unterstützt 128.000 Tokens. Claude unterstützt 200.000. Gemini 2.5 Pro unterstützt über eine Million. Diese Zahlen wachsen weiter, und Teams gehen immer noch davon aus, dass das Problem gelöst ist. Agent bauen, das Kontextfenster mit Anweisungen, Tool-Ergebnissen, Gesprächsverlauf und Nutzerpräferenzen füllen und laufen lassen.

Im Demo funktioniert es. In der Produktion bricht es zusammen. Und der Grund ist architektonisch, nicht modellbezogen.

Das Kontextfenster ist flüchtiger Speicher

Ein Kontextfenster verhält sich wie RAM in einem Computer. Es ist schnell, das Modell kann jederzeit auf alles darin zugreifen, und es ist die einzige Grundlage, über die das Modell zur Inferenzzeit nachdenken kann. Aber es ist auch temporär, kapazitätsbegrenzt und pro Token teuer.

Wer es wie eine Datenbank behandelt und mit allem vollstopft, was ein Agent möglicherweise braucht, erzeugt dieselben Fehler, die auftreten würden, wenn man eine Produktionsanwendung vollständig im RAM ohne Datenträger betreiben wollte. Es funktioniert, bis es das nicht mehr tut. Und wenn es scheitert, ist der Fehler subtil: Der Agent stürzt nicht ab. Er beginnt einfach, Dinge falsch zu machen.

Eine Studie von Gamage testete, wie gut Agenten über längere Gespräche hinweg die Einhaltung von Nutzerbeschränkungen aufrechterhalten. In Runde 5 hielten sich Agenten in 73 % der Fälle an die angegebenen Beschränkungen. Bis Runde 16 sank dieser Wert auf 33 %. Die Anweisungen hatten sich nicht geändert. Das Modell hatte sich nicht geändert. Die Beschränkungen waren lediglich tiefer in das Kontextfenster abgerutscht und lagen unter neueren Nachrichten, Tool-Ausgaben und Zwischen-Argumentationsschritten begraben.

Das ist Präferenzverwässerung, und sie ist einer von vier Fehlermodi, die sich direkt aus der RAM-Analogie ableiten.

Vier Arten, wie Kontext als Speicher in der Produktion versagt

1. Token-Aufblähung

Jeder Tool-Aufruf liefert Daten zurück. Jede Gesprächsrunde fügt Tokens hinzu. Ohne aktives Management kann eine Sitzung, die bei 2.000 Tokens beginnt, innerhalb weniger Wechsel auf über 25.000 Tokens anwachsen. Längere Kontexte bedeuten langsamere Inferenz, höhere Kosten und sinkende Genauigkeit, da das Modell mehr Material berücksichtigen muss.

2. Präferenzverwässerung

Harte Beschränkungen, die früh in einem Gespräch gesetzt werden, verlieren ihre Wirkung, sobald sich das Kontextfenster füllt. Gebotsvorgaben ("immer X tun") halten sich tendenziell. Unterlassungsvorgaben ("niemals Y tun") erodieren. Das Ergebnis: ein Agent, der zu Beginn einer Sitzung Ihren Regeln folgt und sie am Ende stillschweigend ignoriert.

3. Widersprüche innerhalb einer Sitzung

Wenn frühe Anweisungen mit späteren Eingaben kollidieren, bevorzugt das Modell tendenziell die Nähe zum aktuellen Zeitpunkt. Das ist kein Bug im Modell. Es ist eine natürliche Folge der Aufmerksamkeitsmechanik. In einem langen Kontextfenster gewichtet das Modell neuere Tokens stärker. Wenn ein Nutzer eine Präferenz in Runde 12 korrigiert, wird die ursprüngliche Präferenz aus Runde 1 nicht aktualisiert. Sie wird nur manchmal überstimmt.

4. Amnesie über Sitzungen hinweg

Das ist der häufigste Fehler in der Produktion: ein Agent, der sich zwischen Sitzungen an nichts erinnert. Das Kontextfenster wird zurückgesetzt. Jede Präferenz, jedes gelernte Verhalten, jede Korrektur, die der Nutzer im letzten Gespräch vorgenommen hat, ist weg. Der Nutzer beginnt von vorn. Für Enterprise-Workflows, die sich über Tage oder Wochen erstrecken, macht das den Agenten faktisch zustandslos.

Die Lösung: zwei Ebenen, nicht eine

Das architektonische Muster, das sich in produktiven Deployments durchsetzt, trennt das Gedächtnis des Agenten in zwei Ebenen und spiegelt damit wider, wie Computer seit jeher funktionieren.

Arbeitsgedächtnis (das Kontextfenster) hält, was der Agent gerade jetzt braucht: die aktuelle Aufgabe, Zwischenergebnisse, aktive Argumentation und den jüngsten Austausch. Es wird aktiv verwaltet. Wenn ein Tool 2.000 Tokens API-Ausgabe zurückliefert, fasst ein gut architektonierter Agent diese vor dem Einfügen in den Kontext auf 100 Tokens zusammen. Wenn ein Teilauftrag abgeschlossen ist, werden seine Artefakte entfernt.

Persistenter Speicher (externer Speicher) hält, was der Agent sitzungsübergreifend braucht: Nutzerpräferenzen, harte Beschränkungen, gelernte Verhaltensweisen, Identitätsfakten und Verhaltensmuster. Diese Ebene liegt außerhalb des Kontextfensters, in einem Vektor-Store, einer Datenbank oder einem dedizierten Speichersystem. Sie wird zu Beginn jeder Runde per semantischer Suche abgerufen, wobei ein festes Budget von 5-10 relevanten Fakten zusammen mit der aktuellen Aufgabe in das Kontextfenster eingefügt wird.

Die Routing-Entscheidung ist einfach: Wäre diese Information in 30 Tagen noch relevant? Wenn ja, gehört sie in den persistenten Speicher. Wenn nein, bleibt sie im Arbeitsgedächtnis und wird entfernt, sobald die Aufgabe abgeschlossen ist.

Die Benchmarks bestätigen das

Mem0, eines der am weitesten verbreiteten Frameworks für Agenten-Gedächtnis (integriert mit 13 Agenten-Frameworks, darunter LangChain, CrewAI und OpenAI Agents SDK), veröffentlichte 2026 Benchmark-Ergebnisse, die den Unterschied zwischen den beiden Ansätzen quantifizieren.

Im LoCoMo-Benchmark (1.540 Fragen zum Testen des Erinnerns über mehrere Sitzungen hinweg) erreichte die Full-Context-Baseline, bei der alles in das Fenster gepackt wird, 72,9 % Genauigkeit bei ungefähr 26.000 Tokens pro Anfrage und einer p95-Latenz von 17,12 Sekunden. Die Zwei-Ebenen-Speicherarchitektur erreichte 91,6 % Genauigkeit bei ungefähr 6.956 Tokens pro Anfrage und einer p95-Latenz von 1,44 Sekunden.

Das entspricht einer Genauigkeitssteigerung um 18,7 Prozentpunkte bei 4x weniger Tokens und einer Reduzierung der Latenz um 91 %. Der Agent ist nicht nur günstiger und schneller. Er ist messbar korrekter.

Mem0s State of AI Agent Memory 2026-Bericht zeigte auf den in Unternehmensumgebungen wichtigsten Aufgaben noch größere Zugewinne: temporales Schlussfolgern (zu wissen, was sich wann geändert hat) und Multi-Hop-Abfragen (Fakten über mehrere Sitzungen hinweg zu verknüpfen) verzeichneten die größten Genauigkeitssprünge – genau die Fähigkeiten, die Enterprise-Workflows benötigen.

Was das für Enterprise-Agenten-Deployments bedeutet

Die praktischen Konsequenzen sind klar.

Wenn Ihre Agenten zwischen Sitzungen zurückgesetzt werden, können sie nicht lernen. Jede Interaktion beginnt bei null. Nutzer wiederholen sich. Präferenzen gehen verloren. Der Agent wird nie besser. Das ist für einen Chatbot akzeptabel. Für einen agentenbasierten Workflow, der Beschaffung, Onboarding von Kunden oder finanzielle Abstimmung übernimmt, ist das nicht akzeptabel.

Wenn Ihre Agenten alles in das Kontextfenster stopfen, verschlechtern sie sich über längere Gespräche hinweg. Die Compliance sinkt. Die Kosten steigen. Die Latenz nimmt zu. Der Fehler bleibt unbemerkt: Der Agent antwortet weiter, nur mit sinkender Genauigkeit. Niemand merkt es, bis die Ausgabequalität bereits nachgelassen hat.

Wenn Ihre Agenten eine Zwei-Ebenen-Architektur verwenden, halten sie die Einhaltung von Beschränkungen unabhängig von der Gesprächslänge über 90 %, tragen gelernte Präferenzen über Sitzungen hinweg mit und arbeiten zu einem Bruchteil der Token-Kosten.

Der Unterschied ist nicht theoretisch. Er ist der Unterschied zwischen einem Agenten-Pilotprojekt, das in einer Demo funktioniert, und einem Agenten-Deployment, das in der Skalierung funktioniert, in der Unternehmen es tatsächlich brauchen.

Fünf Muster für persistente Speicher in der Produktion

Teams, die Agenten für die Produktion entwickeln, konvergieren auf eine Reihe von Implementierungsmustern:

1. Fixierung harter Beschränkungen. Kritische Regeln (Compliance-Anforderungen, Sicherheitsrichtlinien, Markenrichtlinien) werden in jeder Runde ganz oben in den System-Prompt eingefügt. Sie driften nie tiefer in den Kontext hinein.

2. Komprimierung von Tool-Ergebnissen. Roh-API-Antworten werden zusammengefasst, bevor sie in das Kontextfenster gelangen. Eine JSON-Nutzlast mit 2.000 Tokens wird zu einer 100-Tokens-Zusammenfassung mit den extrahierten relevanten Feldern.

3. Erneutes Einfügen aktiver Modifikatoren. Korrekturen mitten im Gespräch ("eigentlich immer das Legal-Team auf CC setzen") werden extrahiert, im persistenten Speicher abgelegt und in den folgenden Runden erneut eingefügt, statt sich darauf zu verlassen, dass das Modell sie aus dem Gesprächsverlauf erinnert.

4. Extraktion beim Sitzungsschluss. Am Ende jeder Sitzung scannt das System das Gespräch nach neuen Präferenzen, Korrekturen und gelernten Verhaltensweisen und überführt sie dann in den persistenten Speicher.

5. Strukturierte Komprimierung. Anstatt das Kontextfenster unbegrenzt wachsen zu lassen, werden ältere Austausche in strukturierte Zusammenfassungen komprimiert, während wichtige Fakten in den persistenten Speicher verschoben werden.

Der entscheidende Kompetenzwechsel

Vor einem Jahr lag der Engpass in der Entwicklung von Agenten im Prompt Engineering: das Modell so zu steuern, dass es versteht, was Sie wollen. Im Jahr 2026 hat sich der Engpass zum Kontext-Engineering verschoben: die richtigen Informationen zur richtigen Zeit in die richtige Ebene zu bringen.

Die Modelle sind gut genug. Die Kontextfenster sind groß genug. Die fehlende Ebene ist die Speicherarchitektur, die diese Kontextfenster als das behandelt, was sie sind: schneller, flüchtiger und teurer Arbeitsspeicher, unter dem eine persistente Speicher-Ebene benötigt wird.

Die Teams, die Agenten in die Produktion bringen, haben das verstanden. Die Teams, die im Pilotprojekt festhängen, nicht.

Heute starten

Starten Sie mit KI-Agenten zur Automatisierung von Prozessen

Nutzen Sie jetzt unsere Plattform und beginnen Sie mit der Entwicklung von KI-Agenten für verschiedene Arten von Automatisierungen

Heute starten

Starten Sie mit KI-Agenten zur Automatisierung von Prozessen

Nutzen Sie jetzt unsere Plattform und beginnen Sie mit der Entwicklung von KI-Agenten für verschiedene Arten von Automatisierungen

Plattform

Lösungen

Unsere Kunden

Ressourcen

Über uns

Das Kontextfenster Ihres KI-Agenten ist RAM, nicht Speicher. Das erklärt die meisten Produktionsausfälle.

von

Fredrik Falk

Kategorie

KI-Agenten

Artikel teilen

Das Kontextfenster ist flüchtiger Speicher

Vier Arten, wie Kontext als Speicher in der Produktion versagt

1. Token-Aufblähung

2. Präferenzverwässerung

3. Widersprüche innerhalb einer Sitzung

4. Amnesie über Sitzungen hinweg

Die Lösung: zwei Ebenen, nicht eine

Die Benchmarks bestätigen das

Was das für Enterprise-Agenten-Deployments bedeutet

Fünf Muster für persistente Speicher in der Produktion

Der entscheidende Kompetenzwechsel

Starten Sie mit KI-Agenten zur Automatisierung von Prozessen

Starten Sie mit KI-Agenten zur Automatisierung von Prozessen

Neueste Artikel

GPT-5.6 Sol Hits 750 Tokens a Second. Agent Latency Just Became a Buying Decision

Beam vs Bullhorn Automation: Which One Actually Fits Modern Staffing Firms in 2026?

The 2026 BPO Automation Benchmark: Why the 25% Handling-Time Ceiling Is the Wrong Number

GPT-5.6 Sol Hits 750 Tokens a Second. Agent Latency Just Became a Buying Decision

Beam vs Bullhorn Automation: Which One Actually Fits Modern Staffing Firms in 2026?

The 2026 BPO Automation Benchmark: Why the 25% Handling-Time Ceiling Is the Wrong Number

Was ist MCP? Model Context Protocol für KI-Agenten erklärt