4 Min. Lesezeit
OpenAI und Paradigms EVMBench: Der erste ernstzunehmende Test für KI-Sicherheitsagenten

OpenAI und Paradigm haben gerade EVMBench als Open-Source bereitgestellt, eine Benchmark, die testet, wie gut KI-Agenten Schwachstellen in Smart Contracts erkennen, beheben und ausnutzen können. Smart Contracts sichern über 100 Milliarden Dollar an Krypto-Assets, und bis jetzt gab es keine standardisierte Methode, um zu messen, ob KI-Agenten sinnvoll helfen könnten, sie zu schützen.
Das hat sich gerade geändert.
Was EVMBench Tatsächlich Testet
EVMBench bewertet KI-Agenten in drei Aufgabenbereichen, die jeweils eine andere Sicherheitsebene darstellen:
Erkennung: Agenten prüfen Smart Contract-Repositorien und versuchen, bekannte Schwachstellen zu finden. Die Bewertung basiert auf Recall, das heißt, ob der Agent das erfasst, was professionelle Prüfer bereits dokumentiert haben.
Behebung: Agenten versuchen, verwundbaren Code zu reparieren, ohne den Contract zu beschädigen. Das ist schwieriger, als es klingt. Die Reparatur muss die Schwachstelle beseitigen und gleichzeitig alle anderen Funktionalitäten bewahren, einschließlich Randfällen, die der Agent möglicherweise nicht vollständig versteht.
Ausnutzung: Agenten versuchen, in isolierten Blockchain-Sandbox-Umgebungen Gelder von verwundbaren Contracts abzusaugen. Die Bewertung ist deterministisch, basierend darauf, ob der Agent tatsächlich die On-Chain-Zustandsänderung auslöst, die in einem echten Einsatz Gelder stehlen würde.
Der Datensatz dahinter: 120 kuratierte Schwachstellen aus 40 echten Prüfungen, hauptsächlich aus Code4rena offenen Prüfungswettbewerben, plus zusätzliche Szenarien aus Stripes Tempo-Blockchain-Projekt. Jede Aufgabe ist containerisiert, sodass Agenten in isolierten, reproduzierbaren Umgebungen ausgeführt werden.
Jede Aufgabe kommt auch mit einem verifizierten Antwortschlüssel. Die Benchmark selbst wurde validiert, um sicherzustellen, dass jede Schwachstelle tatsächlich ausnutzbar, behebbar und erkennbar ist.
Die Zahlen Erzählen die Geschichte
Als OpenAI und Paradigm mit dem Aufbau von EVMBench begannen, konnten die besten Modelle weniger als 20% der kritischen, geldverzehrenden Code4rena-Bugs ausnutzen.
Heute erreicht GPT-5.3-Codex (zugänglich über OpenAIs Codex CLI) eine Erfolgsquote von 72,2% im Exploit-Modus. Zum Vergleich: GPT-5, das nur sechs Monate früher veröffentlicht wurde, erzielte 31,9% bei den gleichen Aufgaben.
Das ist ein Sprung von ungefähr einem von fünf auf nahezu drei von vier, in weniger als einem Jahr.
Erkennung und Behebung bleiben schwächer. Agenten haben immer noch Schwierigkeiten, umfassende Audits über vollständige Codebasen durchzuführen, und die Behebung erfordert das Verständnis tieferer Designannahmen, die über die unmittelbare Schwachstelle hinausgehen. Doch der Verlauf bei der Ausnutzung allein ist schwer zu ignorieren.
Wie Paradigm es ausdrückte: "Die Verbesserungsrate ist unglaublich."
Warum Das Über Krypto Hinaus Geht
EVMBench wird als Blockchain-Sicherheitstool präsentiert, aber die Implikationen gehen weit über Krypto hinaus.
Die meisten KI-Agenten-Benchmarks testen heute auf synthetischen Aufgaben, Spielzeugdatensätzen oder engen Kodierungsherausforderungen. EVMBench ist anders, weil es Agenten anhand von echtem Produktionscode bewertet, bei dem Fehler direkte finanzielle Folgen haben. Dies sind keine hypothetischen Bugs. Es sind Schwachstellen, die, wenn sie in freier Wildbahn ausgenutzt werden, echtes Geld aus echten Protokollen abziehen würden.
Genau solche Benchmarks fehlen dem breiteren KI-Agentenbereich. Wenn Sie Agenten in Unternehmensumgebungen einsetzen, um Back-Office-Prozesse, Compliance-Prüfungen oder Finanzoperationen zu verwalten, müssen Sie wissen, wie sie sich gegen reale Komplexität und nicht gegen bereinigte Testfälle schlagen.
Der Drei-Modus-Rahmen (Erkennen, Beheben, Ausnutzen) ist ebenfalls beachtenswert. Er testet nicht nur, ob ein Agent ein Problem erkennen kann. Er testet, ob er es ohne Schäden beheben kann und ob er das Problem tief genug versteht, um es zu reproduzieren. Diese stufige Bewertung entspricht eher der Art und Weise, wie man jeden agenten in Produktionsqualität bewerten möchte, unabhängig vom Bereich.
Was Dies Für Unternehmens-KI Bedeutet
Einige Erkenntnisse für alle, die KI-Agenten entwickeln oder einsetzen:
Benchmarks gegen echte Arbeit sind wichtiger als Benchmarks gegen synthetische Aufgaben. Der gesamte Wert von EVMBench ergibt sich daraus, dass echte Audit-Daten aus Produktionsverträgen verwendet werden. Dieselbe Logik gilt für Unternehmen: Wenn Sie einen KI-Agenten für die Rechnungsbearbeitung oder HR-Operationen bewerten, testen Sie ihn gegen Ihre echten Daten und echten Randfälle, nicht gegen eine kuratierte Demo.
Die Fähigkeiten von Agenten verbessern sich schneller als die meisten erwarten. Von 20% auf 72% Genauigkeit beim Ausnutzen in Monaten zu gehen, ist kein inkrementeller Fortschritt. Es ist die Art von Fähigkeitssprung, die verändert, was machbar ist. Die Agenten, die vor einem Jahr wie Spielzeuge aussahen, erledigen jetzt Arbeiten, die einen Fachprüfer Stunden gekostet hätten.
Behebung ist immer noch das schwierigste Problem. Probleme zu finden ist eine Sache. Sie zu beheben, ohne neue zu schaffen, ist dort, wo Agenten noch kämpfen. Dies bezieht sich direkt auf Unternehmenseinsätze: Die Agenten, die den meisten Wert schaffen, sind nicht die, die Probleme markieren. Es sind die, die sie vollständig lösen, während sie alles andere, was funktionierte, bewahren.
Offene Benchmarks beschleunigen das gesamte Ökosystem. Durch die Bereitstellung von EVMBench als Open-Source geben OpenAI und Paradigm jedem Forscherteam und Agentenentwickler eine gemeinsame Messlatte. Paradigm hat die Benchmark bereits zu einem betriebsfähigen Auditagenten erweitert. Erwarten Sie, dass mehr Teams folgen.
Das Größere Bild
Paradigms Schlussfolgerung verdient es, wiederholt zu werden: "Ein wachsender Teil der Audits wird in Zukunft von Agenten durchgeführt werden."
Ersetzen Sie "Audits" durch fast jede wissensintensive, regelbasierte Aufgabe, und die Aussage bleibt gültig. Die Frage ist nicht, ob KI-Agenten diese Arbeit erledigen werden. Es ist, wie schnell sie gut genug werden und wie wir "gut genug" in Bereichen messen, in denen Fehler teuer sind.
EVMBench ist eine Antwort auf diese Frage. Unternehmen brauchen mehr davon.





