06.04.2026

7 Min. Lesezeit

Google Gemma 4 unter Apache 2.0: Was sich für Enterprise-KI-Agenten ändert

von

Fredrik Falk

Google hat kürzlich Gemma 4 unter der Apache-2.0-Lizenz veröffentlicht. Vier Modellgrößen, von Edge-Geräten bis hin zu einem 31B-Dense-Modell, das derzeit Platz 3 im Arena AI Leaderboard belegt.

Die Benchmarks sind beeindruckend. Was für Enterprise-Teams tatsächlich zählt, ist die Lizenzänderung.

Frühere Gemma-Releases wurden unter einer benutzerdefinierten Google-Lizenz mit Einschränkungen für die kommerzielle Nutzung und Content-Richtlinien veröffentlicht. Das machte Rechtsabteilungen nervös und den Einkauf langsam. Gemma 4 wird unter derselben permissiven Lizenz bereitgestellt wie Linux, Kubernetes und der Großteil des Software-Stacks, den Unternehmen bereits einsetzen. Keine Nutzungsschwellen, keine geografischen Einschränkungen, keine Acceptable-Use-Richtlinien über das hinaus, was das Gesetz ohnehin verlangt.

Für Teams, die KI-Agenten in Produktion entwickeln, ist dies das erste Mal, dass ein Open Model aus den Top 3 ohne jegliche Lizenzierungsreibung kommt.

Was Gemma 4 tatsächlich mitbringt

Vier Modellgrößen, jeweils für ein anderes Deployment-Szenario ausgelegt:

Gemma 4 31B Dense ist das Flaggschiff. Es erreicht 85,2 % bei MMLU Pro, 89,2 % bei den AIME-2026-Mathematik-Benchmarks und 80,0 % bei LiveCodeBench v6. Im Arena AI Leaderboard liegt es bei 1452 und übertrifft damit Modelle mit dem 20-fachen seiner Parameteranzahl. Dieses Modell eignet sich für das Fine-Tuning auf domänenspezifische Agentenaufgaben.

Gemma 4 26B MoE (Mixture of Experts) tauscht einen kleinen Teil Qualität gegen deutlich bessere Latenz. Während der Inferenz aktiviert es nur 3,8 Milliarden seiner 25,2 Milliarden Parameter, was schnellere Tokens pro Sekunde bei geringeren Compute-Kosten bedeutet. Es erreicht 1441 im Arena AI Leaderboard – nah genug am 31B, dass die meisten Produktions-Workloads den Unterschied nicht bemerken. Für hochskalige Agenten-Orchestrierung mit Dutzenden paralleler Aufrufe ist dies die praktische Wahl.

Gemma 4 E4B und E2B sind die Edge-Modelle. Das E2B läuft mit 2-Bit- und 4-Bit-Quantisierung mit weniger als 1,5 GB Speicher, was bedeutet, dass es auf ein Smartphone, einen Raspberry Pi oder ein NVIDIA Jetson Orin Nano passt. Beide Edge-Modelle unterstützen ein 128K-Kontextfenster und laufen vollständig offline mit nahezu null Latenz. Für Unternehmen, die Agentenfähigkeiten in Produktionshallen, im Außendienst oder überall dort benötigen, wo ein Cloud-Roundtrip nicht praktikabel ist, machen diese Modelle das ohne den Aufbau einer individuellen Infrastruktur möglich.

Alle vier Größen teilen sich dieselben Architekturverbesserungen: abwechselnde lokale Sliding-Window- und globale Full-Context-Attention-Layer sowie eine neue Technik namens Per-Layer Embeddings, die neben dem Haupt-Residual-Stream einen parallelen Conditioning-Pfad hinzufügt. Das praktische Ergebnis ist durchgängig bessere Leistung pro Parameter.

Natives Function Calling verändert die Agenten-Gleichung

Das wichtigste Feature für KI-Agenten-Plattformen ist natives Function Calling über alle vier Modellgrößen hinweg.

Gemma 4 unterstützt die Definition von Tools als JSON-Schemas, und das Modell erzeugt daraufhin nativ strukturierte Tool-Aufrufe. Keine Prompt-Engineering-Hacks, kein Output-Parsing, kein Hoffen darauf, dass das Modell Ihre Formatierungsanweisungen einhält. Sie definieren die Schnittstelle, das Modell ruft sie korrekt auf.

Das funktioniert zusammen mit strukturiertem JSON-Output und mehrstufiger Planung. In der Praxis heißt das: Sie können einen Agenten-Workflow aufbauen, bei dem das Modell eine Aufgabe erhält, sie in Schritte zerlegt, in jedem Schritt externe APIs aufruft und strukturierte Ergebnisse zurückliefert. Alles nativ, ohne das fragile Gerüst, das die meisten Open-Source-Agenten-Frameworks derzeit erfordern.

Für Enterprise-Teams ist strukturierter Output das Feature, das darüber entscheidet, ob ein Modell produktionsreif ist oder dauerhaft im Prototyping stecken bleibt. Wenn ein Agent eine Rechnung verarbeitet, ein Support-Ticket weiterleitet oder einen Kandidaten bewertet, braucht das nachgelagerte System strukturierte Daten. Keine Prosa. Kein „hier ist meine Analyse“. Ein JSON-Objekt mit den Feldern, die Ihr System erwartet – jedes Mal.

Gemma 4 liefert das auf Modellebene statt als Nachbearbeitungsschicht. Dadurch entfällt eine ganze Klasse von Produktionsfehlern, bei denen das Modell zwar valide Schlussfolgerungen erzeugt, aber ein ungültiges Ausgabeformat.

Ein Extended-Thinking-Modus ist ebenfalls verfügbar: Das Modell kann so konfiguriert werden, dass es komplexe Probleme Schritt für Schritt durchdenkt, bevor es eine endgültige Antwort liefert. Für Agentenaufgaben mit Multi-Kriterien-Entscheidungen, bedingter Logik oder mehrdeutigen Eingaben ist das der Unterschied zwischen einem Agenten, der die einfachen 80 % abdeckt, und einem, der die schwierigen 20 % übernimmt, die tatsächlich Wert schaffen.

Die Lizenzlücke, über die niemand spricht

Open-Source-KI-Modelle haben ein Lizenzproblem, das in den meisten technischen Evaluierungen vollständig ignoriert wird.

Meta's Llama 4, die andere dominante Open-Model-Familie, wird unter der Llama 4 Community License veröffentlicht. Sie bietet Zugriff auf Gewichte, enthält aber reale Einschränkungen: Anwendungen mit mehr als 700 Millionen monatlich aktiven Nutzern erfordern eine separate kommerzielle Vereinbarung. Die Acceptable Use Policy schränkt ganze Anwendungskategorien ein. Die Open Source Initiative hat wiederholt erklärt, dass die Llama-Lizenzierung die Open Source Definition nicht erfüllt.

Für ein Startup, das eine Consumer-App entwickelt, sind diese Einschränkungen möglicherweise nie relevant. Für ein Unternehmen, das KI-Agenten über Geschäftsprozesse hinweg einsetzt, erzeugen sie Beschaffungsreibung, die die Einführung um Monate verzögert.

Enterprise-Rechtsabteilungen bewerten KI-Modelllizenzen genauso wie jede andere Softwareabhängigkeit. Können wir es ändern? Können wir abgeleitete Werke vertreiben? Gibt es Nutzungsschwellen, die wir erreichen könnten? Konfligiert die Acceptable-Use-Richtlinie mit unseren Geschäftsaktivitäten? Bei Llama lautet die Antwort auf mehrere dieser Fragen „es kommt darauf an“ oder „mit Meta abstimmen“. Bei Apache 2.0 lautet die Antwort durchgängig: „ja, machen Sie weiter“.

Google ist nicht das erste Unternehmen, das Apache 2.0 für KI-Modelle verwendet. Qwen 3.6 und Mistral Small 4 nutzen sie ebenfalls. Aber Gemma 4 ist das erste Apache-2.0-Modell, das global in den Top 3 rangiert. Diese Kombination aus Leistungsfähigkeit und Lizenzklarheit gab es vor dem 2. April nicht.

Was das für Enterprise-Teams im Bereich KI-Agenten bedeutet

Drei Implikationen, die für Teams mit Agenten-Workflows in Produktion relevant sind:

Fine-Tuning ohne Rechtsprüfung. Apache 2.0 bedeutet, dass Sie Gemma 4 auf proprietären Daten feinabstimmen und das resultierende Modell kommerziell bereitstellen können – ohne zusätzliche Lizenzierung. Für Unternehmen, die domänenspezifische Agenten für Finanzen, HR oder Procurement entwickeln, entfällt damit der rechtliche Overhead, der Fine-Tuning mit offenen Modellen unpraktisch machte. Ihr feinabgestimmtes Modell gehört Ihnen genauso wie jeder von Ihnen geschriebene Code.

Edge-Deployment wird real. Die E2B- und E4B-Modelle sind nicht nur kleinere Versionen des großen Modells. Sie sind gezielt für On-Device-Inferenz mit multimodalen Fähigkeiten, Offline-Betrieb und Speicheranforderungen entwickelt, die auf Standardhardware passen. Für Fertigung, Logistik oder Field Service bedeutet das: Agentenintelligenz direkt am Ort der Arbeit. Keine Cloud-Abhängigkeit, keine Latenz, keine Daten, die das Gerät verlassen.

Multi-Model-Orchestrierung bekommt eine neue Option. Die meisten produktiven Agentensysteme nutzen bereits mehrere Modelle für unterschiedliche Aufgaben: ein Reasoning-Modell für komplexe Entscheidungen, ein schnelles Modell für Klassifikation, ein Code-Modell für strukturierten Output. Gemma 4s Spanne von 2B bis 31B – alle unter derselben Lizenz und Architektur – bedeutet, dass Sie einen kohärenten Multi-Model-Stack aus einer einzigen Familie aufbauen können. Das 31B übernimmt komplexes Reasoning, das 26B MoE übernimmt hochskalige Klassifikation und das E4B übernimmt Edge-Inferenz. Gleicher Fine-Tuning-Ansatz, gleiches Ausgabeformat, gleiche Lizenz über alle hinweg.

Die Geschwindigkeitsfrage

Die Community hat einen Punkt angesprochen, den man anerkennen sollte: Inferenzgeschwindigkeit. Frühe Benchmarks zeigen, dass das 31B-Modell bei einigen Anbietern langsamer läuft als vergleichbar große Wettbewerber. Das 26B MoE adressiert dies für latenzsensitive Workloads, indem es pro Forward-Pass nur 3,8B Parameter aktiviert, dennoch sollten Teams, die Gemma 4 evaluieren, auf ihrer spezifischen Hardware benchmarken, bevor sie sich für ein Produktions-Deployment entscheiden.

Das ist ein lösbares Problem. Quantisierung, Provider-Optimierungen und die MoE-Variante bieten alle Wege zu akzeptabler Latenz. Aber es ist real – und etwas anderes zu behaupten, würde niemandem helfen, der ein Deployment plant.

Das größere Bild

Die Gemma-Familie wurde über 400 Millionen Mal heruntergeladen, mit mehr als 100.000 Community-Varianten. Gemma 4 unter Apache 2.0 wird das beschleunigen.

Aber die eigentliche Geschichte ist nicht ein einzelnes Modell-Release. Es geht um die sich schließende Lücke zwischen proprietären und offenen Modellen. Vor einem Jahr bedeutete die Wahl eines offenen Modells, deutlich schlechtere Leistung zu akzeptieren. Heute übertrifft ein Modell mit 31 Milliarden Parametern, das Sie auf eigener Hardware ausführen, auf eigenen Daten feinabstimmen und ohne Lizenzprüfung bereitstellen können, Modelle mit der 20-fachen Größe.

Für Enterprise-Teams, die KI-Agenten entwickeln, lautet die Frage nicht mehr, ob offene Modelle gut genug sind. Sondern ob die operativen Vorteile des Betriebs eigener Modelle – Datenschutz, Latenzkontrolle, Kostenvorhersehbarkeit und vollständige Anpassbarkeit – die Bequemlichkeit eines reinen API-Zugangs überwiegen.

Mit Gemma 4 hat sich diese Rechnung weiter in Richtung eines eigenen Stacks verschoben.

Heute starten

Starten Sie mit KI-Agenten zur Automatisierung von Prozessen

Nutzen Sie jetzt unsere Plattform und beginnen Sie mit der Entwicklung von KI-Agenten für verschiedene Arten von Automatisierungen

Heute starten

Starten Sie mit KI-Agenten zur Automatisierung von Prozessen

Nutzen Sie jetzt unsere Plattform und beginnen Sie mit der Entwicklung von KI-Agenten für verschiedene Arten von Automatisierungen

Lösungen

Unsere Kunden

Plattform

Ressourcen

Über uns

Google Gemma 4 unter Apache 2.0: Was sich für Enterprise-KI-Agenten ändert

von

Fredrik Falk

Was Gemma 4 tatsächlich mitbringt

Natives Function Calling verändert die Agenten-Gleichung

Die Lizenzlücke, über die niemand spricht

Was das für Enterprise-Teams im Bereich KI-Agenten bedeutet

Die Geschwindigkeitsfrage

Das größere Bild

Starten Sie mit KI-Agenten zur Automatisierung von Prozessen

Starten Sie mit KI-Agenten zur Automatisierung von Prozessen

Neueste Artikel

Anthropic's New Billing Split Reveals What AI Agents Actually Cost

Enterprises Have 18x More AI Agents Than Last Year. Most Can't Show a Dollar of ROI.

Die Governance-Lücke: Was KI-Agenten-geführte Unternehmen vor dem Skalieren richtig machen müssen

Anthropic's New Billing Split Reveals What AI Agents Actually Cost

Enterprises Have 18x More AI Agents Than Last Year. Most Can't Show a Dollar of ROI.

Die Governance-Lücke: Was KI-Agenten-geführte Unternehmen vor dem Skalieren richtig machen müssen

Das Kontextfenster Ihres KI-Agenten ist RAM, nicht Speicher. Das erklärt die meisten Produktionsausfälle.