8 Min. Lesezeit
HTML vs. Markdown: Welches Format macht KI-Agenten tatsächlich nützlicher?

Markdown ist die universelle Sprache von KI-Agenten. Gleichzeitig ist es zunehmend der Grund, warum niemand liest, was sie produzieren.
Dieser Spannungsbogen steht im Zentrum einer Debatte, die sich unter KI-Ingenieuren leise aufgebaut hat und nun an die Öffentlichkeit dringt. Anfang Mai veröffentlichte Andrej Karpathy eine Empfehlung: Bitten Sie Ihr LLM, seine Antwort als HTML zu strukturieren, und betrachten Sie sie dann im Browser. Etwa zur gleichen Zeit veröffentlichte Thariq Shihipar, Engineering Lead des Claude-Code-Teams bei Anthropic, einen ausführlichen Beitrag mit dem Titel Die unvernünftige Wirksamkeit von HTML, in dem er die Position vertrat, dass er für KI-generierte Ausgaben Markdown inzwischen vollständig aufgegeben habe.
Ihre Argumentation geht nicht um Ästhetik. Es geht um eine strukturelle Diskrepanz zwischen dem, was KI-Agenten erzeugen können, und dem, was Menschen tatsächlich aufnehmen können.
Wie Markdown zum Standard wurde
Markdown setzte sich im Rennen um das Standard-Ausgabeformat für KI aus drei praktischen Gründen durch: Es ist kostengünstig, maschinenlesbar und leicht von Hand zu bearbeiten.
Bei den Kosten ist der Unterschied erheblich. Die Konvertierung von HTML zu Markdown reduziert den Tokenverbrauch bei sauberem Content um rund 68 % und bei realen Webseiten um bis zu 87 %. Cloudflare hat speziell die Funktion „Markdown for Agents“ eingeführt, um HTML vor der Weitergabe an KI-Systeme auf Markdown zu reduzieren und so die Inferenzkosten drastisch zu senken.
Bei der maschinellen Verarbeitung schlägt Markdown HTML tatsächlich. In Benchmarks zur Tabellenextraktion auf GPT-Basis erreichten Markdown-Darstellungen eine Genauigkeit von 60,7 % gegenüber 53,6 % bei HTML-Tabellen. In RAG-Pipelines steigt die Genauigkeit beim Einlesen von Markdown gegenüber reinem HTML um bis zu 35 %.
Und bei der Bearbeitbarkeit ist Markdown kaum zu übertreffen. Sie können eine .md-Datei in jedem Texteditor öffnen, Änderungen vornehmen und sie mit sauberen, lesbaren Diffs ins Versionskontrollsystem einchecken. HTML-Diffs sind unübersichtlich und schwer zu prüfen.
Diese Vorteile sind real. Sie erklären, warum jedes KI-Coding-Tool, von Cursor über GitHub Copilot bis Claude Code, für Pläne, Spezifikationen und Dokumentation standardmäßig Markdown verwendet. Sie offenbaren aber auch die in das Format eingebaute Annahme: dass der Mensch auf der anderen Seite die Datei manuell lesen und bearbeiten wird.
Diese Annahme bricht gerade weg.
Das Leseproblem
Die Harvard Business Review veröffentlichte eine Studie im März 2026, in der der Begriff „AI Brain Fry“ geprägt wurde. Beschäftigte mit hoher KI-Überwachung berichteten von 19 % mehr Informationsüberlastung, 14 % mehr mentalem Aufwand und 33 % mehr Entscheidungsmüdigkeit im Vergleich zu jenen mit geringer KI-Überwachung. Eine separate Analyse von Fortune ergab, dass sich die Zeit für E-Mails nach der Einführung von KI-Tools verdoppelte, während fokussierte Arbeitsphasen um 9 % zurückgingen.
Das Problem ist nicht, dass KI schlecht schreibt. Das Problem ist, dass KI zu viel schreibt – und Markdown nichts dazu beiträgt, dass Menschen diese Menge verarbeiten können.
Thariq Shihipar brachte es auf den Punkt: „Ich lese in der Regel tatsächlich nicht mehr als eine Markdown-Datei mit 100 Zeilen, und ich bekomme ganz sicher niemanden sonst in meinem Unternehmen dazu, sie zu lesen.“ Das deckt sich mit den Erfahrungen der meisten Teams. KI-Agenten erzeugen Implementierungspläne mit 200 Zeilen, detaillierte Spezifikationen und mehrseitige Berichte. Die Ausgabe ist technisch korrekt und strukturell sauber. Und das meiste davon bleibt ungelesen.
Die Neurowissenschaften stützen das. Rund 30 % der menschlichen Großhirnrinde sind laut der grundlegenden kortikalen Kartierungsforschung von Felleman und Van Essen der visuellen Verarbeitung gewidmet. Hören liegt bei 3 %. Tastsinn bei 8 %. Sehen ist, wie Karpathy es formulierte, „die zehnspurige Schnellstraße der Informationen ins Gehirn“. Markdown nutzt das kaum. Fettdruck, Überschriften und Aufzählungspunkte bilden das gesamte visuelle Werkzeug von Markdown.
Wo HTML die Gleichung verändert
HTML macht KI-Agenten nicht intelligenter. Es macht ihre Ausgaben konsumierbar.
Der Unterschied liegt in der Informationsdichte. HTML kann tabellarische Daten, gestylte Layouts, SVG-Diagramme, interaktive Elemente mit JavaScript, räumliche Beziehungen mit absoluter Positionierung und eingebettete Codeausschnitte darstellen, die tatsächlich ausgeführt werden. Markdown zwingt KI-Agenten, all das mit ASCII-Art und Unicode-Zeichen nachzubilden.
Karpathy beschrieb dies als eine Entwicklung, die der Evolution von Computeroberflächen entspricht: reiner Text, dann Markdown, dann HTML und schließlich interaktives neuronales Video. Dieses Muster zieht sich durch die Geschichte der Informatik, von Kommandozeilen über GUIs bis zu Touchscreens. Jeder Schritt tauschte Effizienz gegen Verständlichkeit.
Thariqs Beispiele machen den praktischen Nutzen deutlich. Er verwendet HTML für Implementierungspläne mit eingebetteten Mockups und Codeausschnitten. Für Code-Review-Artefakte, die echte Diffs mit Inline-Anmerkungen anzeigen, farbcodiert nach Schweregrad. Für interaktive Prototypen, bei denen Slider das Anpassen von Parametern ermöglichen und eine Schaltfläche „Als JSON kopieren“ das Ergebnis zurück in die Coding-Session exportiert. Für Forschungsberichte mit SVG-Flussdiagrammen und Registerkarten-Navigation.
Die Vibe-Coding-Bewegung beschleunigt diesen Trend. Wenn Entwickler zunehmend in natürlicher Sprache beschreiben, was sie wollen, und Agenten den Code schreiben lassen, wird das Ausgabeformat wichtiger denn je. Sie müssen überprüfen, was der Agent gebaut hat, und eine gerenderte HTML-Vorschau vermittelt das deutlich effizienter als das Scrollen durch rohen Code im Terminal.
Der Vorteil bei der Weitergabe ist ebenso bedeutend. Markdown-Dateien benötigen einen Renderer oder einen Anhang. HTML öffnet sich in jedem Browser nativ. Wenn Sie die Ausgabe eines Agenten als URL teilen können, steigt die Wahrscheinlichkeit, dass Stakeholder sich damit befassen, deutlich.
Unternehmensplattformen haben sich längst entschieden
Während die Entwickler-Community diskutiert, bauen Enterprise-KI-Plattformen seit Jahren leise an umfangreichen Ausgabesystemen.
Salesforce Agentforce verarbeitet über 4 Millionen Sitzungen über mehr als 133.000 Agenten hinweg mit Adaptive Response Formats, einem System, das LLM-Textantworten in strukturierte UI-Komponenten wie Karussells, Rich-Choice-Buttons und Medienkarten umwandelt. Das Engineering-Team dokumentierte während der Entwicklung ein interessantes Problem: Frühe Versionen „überformatierten“ Antworten und verwandelten einfache Ja/Nein-Antworten in vollständige UI-Komponenten. Die Lehre daraus war, dass reichhaltige Ausgaben zur Komplexität der Information passen müssen.
Microsofts Copilot Studio verwendet Adaptive Cards, ein plattformunabhängiges Format für reichhaltige interaktive Inhalte. ServiceNows Now Assist zeigt Agentenergebnisse als ausführbare Karten mit Quelllinks und Schritt-für-Schritt-Fortschrittsverfolgung an.
Google ging noch weiter mit A2UI, einem offenen Protokoll, bei dem Agenten vorab freigegebene UI-Komponenten anfordern, statt rohes HTML zu generieren. Die Unterscheidung ist für die Sicherheit wichtig: Anstatt Agenten zu vertrauen, dass sie sicheres HTML schreiben, lässt A2UI Agenten deklarieren, was sie anzeigen möchten, und die Plattform übernimmt das Rendering.
Alle drei großen KI-Labs haben auch in ihren Verbraucherprodukten in reichhaltige Ausgaben investiert. Anthropics Claude Artifacts hat „zig Millionen“ interaktiver HTML-Ausgaben generiert. OpenAI hat HTML- und React-Rendering in ChatGPT Canvas integriert. Das sind keine Experimente. Das sind Produktivfunktionen mit enormer Verbreitung.
Das Signal aller großen Plattformen ist dasselbe. Wenn Agenten mit Menschen sprechen, reicht reiner Text nicht aus. Die Plattformen, die Agenten über mehrere Modelle und Workflows orchestrieren, benötigen Ausgabeformate, die der Komplexität dessen entsprechen, was diese Agenten erzeugen.
Die Kompromisse sind real
HTML ist kein kostenloses Upgrade. Die Kosten sind konkret.
Der Tokenverbrauch ist der offensichtlichste Punkt. Sauberes HTML kostet 2- bis 3-mal so viele Tokens wie das entsprechende Markdown. HTML aus der Praxis mit CSS und JavaScript kann auf das 8- bis 10-Fache anwachsen. Da sich die Kontextfenster inzwischen auf mehr als eine Million Tokens erstrecken, ist das weniger relevant als 2023, summiert sich aber im großen Maßstab weiterhin.
Sicherheit ist ein schwierigeres Problem. Rohes HTML von KI-Agenten kann JavaScript enthalten, was die Tür für Cross-Site-Scripting- und Injection-Angriffe öffnet. Googles A2UI-Protokoll existiert genau deshalb, weil Enterprise-Sicherheitsteams nicht akzeptieren können, dass Agenten beliebiges HTML schreiben, das in Produktionsumgebungen ausgeführt wird.
Auch die Versionskontrolle leidet darunter. HTML-Diffs sind unübersichtlich, voller schließender Tags und Attributänderungen, die die eigentliche inhaltliche Änderung verdecken. Das ist einer der größten Nachteile, den Thariq selbst eingeräumt hat.
Und es gibt ein Gegenargument, das man ernst nehmen sollte. Kurtis Redux veröffentlichte als direkte Reaktion „The Unreasonable Ineffectiveness of HTML“ und argumentierte, dass der Wechsel „visuelle Hochglanzwirkung auf Kosten von Quelllesbarkeit, Sicherheit, Ökosystem-Kompatibilität und Prüfbarkeit verfolgt“. Für Codebasen, in denen Agenten über gemeinsame Dateien mit Menschen zusammenarbeiten, bleibt die Einfachheit von Markdown ein echter Vorteil.
Welches Format macht bessere Agenten?
Die Antwort hängt davon ab, mit wem der Agent spricht.
Für die Kommunikation zwischen Agenten und die maschinelle Verarbeitung gewinnt Markdown eindeutig. Es ist günstiger, präziser zu parsen und einfacher zu versionieren. Wenn ein KI-Agent eine Ausgabe erzeugt, die von einem anderen System weiterverarbeitet wird, sind die Beschränkungen von Markdown ein Vorteil.
Für die Kommunikation zwischen Agent und Mensch gewinnt HTML ebenso klar. Wenn das Ziel ist, dass eine Person versteht, bewertet und auf das reagiert, was ein Agent erzeugt hat, überwiegen visuelle Klarheit und Informationsdichte gegenüber Token-Effizienz. Die von der HBR dokumentierte Zunahme der Informationsüberlastung um 19 % wird nicht durch besseres Markdown gelöst. Sie wird dadurch gelöst, dass Informationen in Formaten präsentiert werden, die das Gehirn tatsächlich verarbeiten kann.
Die besten Agentenplattformen werden beides unterstützen. Sie werden intern Markdown und strukturierte Daten für das Schlussfolgern der Agenten, das Gedächtnis und die Kommunikation zwischen Agenten nutzen. Und sie werden reichhaltige, visuelle und interaktive Ausgaben für die Menschen rendern, die Agentenarbeit prüfen, freigeben und darauf reagieren müssen. Auf der Plattformebene findet diese Übersetzung statt: Sie überführt das Denken des Agenten in menschenlesbare Ergebnisse, ohne den Agenten zu zwingen, Präsentationscode zu schreiben.
Karpathys Entwicklungslinie – Text zu Markdown zu HTML zu interaktivem neuronalen Video – ist keine Vorhersage einer fernen Zukunft. Die ersten drei Schritte passieren bereits heute. Die Frage für Unternehmen ist, ob ihre Agenteninfrastruktur Schritt hält oder ob sie die Menschen weiterhin dazu bringen, 200-zeilige Markdown-Dateien zu lesen, die niemand zu Ende liest.





