Agent Control Plane 2026: Der Wettlauf um den Harness
Zwischen dem 8. und 29. April 2026 haben sechs der wichtigsten KI- und Cloud-Anbieter ihren eigenen Agent-Harness als Produkt veröffentlicht. Aus einer Engineering-Disziplin wurde eine Einkaufskategorie. Wer 2025 noch entschieden hat, welches Modell er nutzt, entscheidet jetzt zusätzlich, welche Control-Plane seine Agenten betreibt, mit welchem Preismodell und welcher Souveränität.
Innerhalb von vier Wochen sind Anthropic Managed Agents (8. April), das OpenAI Agents SDK Update (15. April), Snowflake Cortex Code (21. April), Salesforce Agent Fabric (21. April), Google Gemini Enterprise auf der Cloud Next 2026 (22. April) und Guild.ai mit 44 Millionen US-Dollar Series A (29. April) gestartet. Parallel zeigt das Stanford-Paper Meta-Harness mit 76,4 Prozent auf Terminal-Bench 2.0, dass Harness-Konfigurationen automatisch optimierbar sind. Für Mittelstand und Enterprise heißt das: Vier Geschäftsmodelle stehen jetzt parallel im Markt, von Pay-per-Session über Open-Source bis zu vendor-neutralen Control-Planes. Die Plattformwahl bindet zwei bis drei Jahre und sollte vor neuen produktiven Agenten getroffen werden.
Was sich in vier Wochen verändert hat
Zwischen dem 8. und 29. April 2026 haben sechs der wichtigsten KI- und Cloud-Anbieter ihren eigenen Agent-Harness als Produkt auf den Markt gebracht. Aus einer Engineering-Disziplin wurde innerhalb eines Monats eine Einkaufskategorie. Das verändert Plattform-Roadmaps in IT-Abteilungen quer durch den Mittelstand und die Enterprise-IT.
Anthropic Managed Agents
Public Beta des vollständig gehosteten Agent-Runtime, abgerechnet zu 0,08 US-Dollar pro aktiver Session-Stunde. Startkunden sind Notion, Rakuten, Sentry und Asana.
OpenAI Agents SDK Update
Der Codex-Harness wird Open Source und über das aktualisierte Agents SDK bereitgestellt. Cloudflare Agent Cloud bietet eine direkt einsetzbare Hosting-Variante.
Snowflake Cortex Code und Salesforce Agent Fabric
Snowflake verankert die Control Plane in der Datenplattform. Salesforce liefert mit Agent Fabric eine Multi-Vendor-Governance-Schicht für CRM-Workloads.
Google Cloud Next 2026: Gemini Enterprise
Google positioniert die Gemini Enterprise Agent Platform als zentrale Control Plane und kündigt 750 Millionen US-Dollar für das Partner-Ökosystem an.
Guild.ai Series A
Mit 44 Millionen US-Dollar von Google Ventures, NFX, Acrew, Khosla, Scribble und Webb startet Guild.ai als vendor-neutrale, modell-agnostische Alternative zu den Hyperscalern.
Was bisher als Engineering-Aufgabe in Plattform-Teams lag, wird in Q2 2026 zur Plattform-Entscheidung in der IT-Strategie. Die Wahl bindet Sessions, Memory-Format, Tool-Registry und Audit-Logs. Eine spätere Migration ist deutlich teurer als ein Modellwechsel.
Was eine Control Plane für KI-Agenten leistet
Eine Agent Control Plane übernimmt die Aufgaben, die im klassischen Cloud-Stack zu Kubernetes, Service Mesh und IAM gehören. Sie startet, überwacht, drosselt und beendet Agenten, führt Audit-Logs, verwaltet Berechtigungen, verteilt Tools über das Model Context Protocol und stellt Rollbacks sicher. Im Gegensatz zum reinen Modell-Endpunkt ist sie zustandsbehaftet und langlaufend.
Governance
Wer darf welchen Agenten gegen welches System einsetzen, wer prüft die Aktionen, welche Limits gelten pro Team und Anwendungsfall.
Sicherheit
Sandboxing, Secret-Management, Approval-Stufen für kritische Aktionen und eine Notbremse für entgleiste Sessions.
Observability
Trace-Speicher pro Sitzung, deterministische Replays, Kostenabrechnung pro Session, Anomalie-Erkennung.
Tool-Registry
Einheitlicher Zugriff auf MCP-Tools und A2A-Protokolle, Versionierung pro Tool, Freigabeprozess für neue Werkzeuge.
Speicher
Memory-Hierarchie über Konversation, Projekt, Organisation und globale Wissensbasis, mit Verfallsdaten und Löschpolicies.
Abrechnung
Pro Team, pro Agent, pro Anwendungsfall. Token-Kosten und Laufzeit-Kosten getrennt erfassbar, mit Quoten und Alarmen.
Die Verbindung zur etablierten Disziplin Harness Engineering ist eng. Der Harness ist die Software-Schicht um ein einzelnes KI-Modell, die Control Plane verwaltet viele dieser Harnesses zentral. Vereinfacht: Der Harness ist der Motor, die Control Plane ist die Werkstatt mit Wartungsprotokollen.
Die vier Geschäftsmodelle parallel im Markt
Die Anbieter sind sich einig, dass der Harness das Produkt ist. Sie sind sich uneinig darüber, wie er bezahlt werden soll. Vier Modelle stehen jetzt nebeneinander im Markt, und sie decken unterschiedliche Anwendungsfälle und Risikoprofile ab.
| Modell | Vertreter | Preislogik | Stärke | Lock-in-Risiko |
|---|---|---|---|---|
| Pay-per-Session | Anthropic Managed Agents | 0,08 USD pro aktiver Session-Stunde, Token zusätzlich | Vorhersagbar, schneller Einstieg | Hoch (Hosting nur bei Anthropic) |
| Open-Source-Harness | OpenAI Agents SDK, Codex-Harness | Token-Verbrauch, Hosting selbst getragen | Volle Kontrolle, kein Plattform-Aufschlag | Mittel (Tool-Format an OpenAI gekoppelt) |
| Plattform-Bundle | Google Gemini Enterprise, Snowflake Cortex Code, Salesforce Agent Fabric, Microsoft | Teil eines Cloud- oder SaaS-Vertrags | Integriert in bestehende Plattform | Sehr hoch (Cloud-Strategie folgt) |
| Vendor-neutrale Control Plane | Guild.ai | Eigenes Pricing, modell-agnostisch | Multi-Vendor, eigene Compliance | Niedrig (Modelle austauschbar) |
Anthropic, OpenAI, Google und Microsoft sind sich einig, dass der Harness das Produkt ist. Sie sind sich uneinig über den Preis.
Pay-per-Session sieht günstig aus, summiert sich aber bei langlaufenden Agenten. Ein Agent, der acht Stunden am Tag aktiv läuft, kostet allein an Session-Gebühren rund 230 US-Dollar pro Monat plus Token. Bei 50 produktiven Agenten ergibt das einen niedrigen sechsstelligen Jahresbetrag, ohne dass Modellaufrufe eingerechnet sind. Plattform-Bundles wirken kostenlos, weil die Investitionen als Sunk Cost in der Cloud-Rechnung verschwinden, vergrößern aber die Abhängigkeit vom Hyperscaler.
Was die Stanford-Studie Meta-Harness zeigt
Während die Anbieter den Harness als Produkt verkaufen, automatisiert Stanford bereits seine Optimierung. Das am 30. März 2026 veröffentlichte Paper Meta-Harness (Yoonho Lee, Roshen Nair, Qizheng Zhang, Kangwook Lee, Omar Khattab, Chelsea Finn) beschreibt das erste System, das Harness-Code per LLM iterativ verbessert und damit Benchmark-Spitzenwerte erreicht.
Methodisch nutzt Meta-Harness einen Claude-Code-Agenten als Proposer mit unbeschränktem Filesystem-Zugriff auf bisherige Konfigurationen, Traces und Bewertungen. Das System inspiziert die Historie wie ein Entwickler mit Standard-Werkzeugen und schließt aus Misserfolgen auf Designänderungen. Die Skala liegt um den Faktor von rund 500.000 über klassischen Text-Optimierern, die mit komprimierten Skalar-Belohnungen arbeiten.
LangChain hat schon vorher gezeigt, dass dasselbe Prinzip auch ohne Auto-Optimierung funktioniert. Engineer Vivek Trivedy beschreibt in einem Blogpost vom 17. Februar 2026, wie der hauseigene Coding-Agent ohne Modellwechsel von 52,8 auf 66,5 Prozent auf Terminal-Bench 2.0 gestiegen ist und damit von Rang 30 auf Rang 5. Die Hebel waren ein "Reasoning Sandwich" mit gezielter Compute-Verteilung, drei spezialisierte Middleware-Hooks für Pre-Completion-Checklist, Local-Context-Mapping und Loop-Detection sowie eine klare Phasentrennung in Plan, Build, Verify und Fix.
Das Ziel eines Harness ist, die inhärent ungleichmäßige Intelligenz eines Modells für die Aufgaben zu formen, die uns wirklich wichtig sind.
Vivek Trivedy, LangChainDeutsche und EU-Perspektive
Für deutsche Unternehmen und EU-regulierte Branchen ist die neue Marktlage zweischneidig. Pay-per-Session und Plattform-Bundles vereinfachen den Einstieg und entlasten interne Plattform-Teams. Gleichzeitig konzentriert sich die Control Plane bei US-Hyperscalern, was die Diskussion um digitale Souveränität verschärft, die mit dem EU SEAL Framework ohnehin Fahrt aufgenommen hat.
Drei harte Anforderungen für den deutschen Einsatz
Hosting und Datenresidenz
Anthropic Managed Agents läuft ausschließlich auf Anthropic-Infrastruktur. Für Branchen mit EU-Datenresidenz-Anforderungen muss separat geprüft werden, wo die Sessions tatsächlich ausgeführt werden, und welche Subprozessoren beteiligt sind.
EU AI Act ab 2. August 2026
Die Hochrisiko-Pflichten verlangen nachvollziehbare Logs, menschliche Aufsicht, Risiko-Management und technische Dokumentation. Eine Control Plane mit Audit-Trail ist nicht optional, sondern Voraussetzung für den produktiven Betrieb.
DSGVO und Geschäftsgeheimnisse
Wer Tickets, Verträge oder Code an einen Managed-Agent sendet, exportiert Daten. Auftragsverarbeitung, Auftragsweitergabe, Löschfristen und Audit-Rechte gehören in den Vertrag, bevor produktive Daten in Sessions fließen.
Für den Mittelstand senkt der Einstieg über gehostete Plattformen den initialen Aufwand deutlich. Wer kein eigenes Plattform-Team aufbauen will, kommt mit Anthropic Managed Agents oder Google Gemini Enterprise schneller in den produktiven Betrieb. Der Preis dafür ist eine zweite Cloud-Abhängigkeit zusätzlich zur bestehenden Hyperscaler-Wahl. Wer bereits in eine Multi-Cloud-Strategie investiert hat oder digitale Souveränität als hartes Kriterium führt, sollte vendor-neutrale Optionen wie Guild.ai oder einen selbst betriebenen Codex-Harness ernsthaft prüfen.
Herausforderungen und Risiken
Die schnelle Marktreife ist keine Garantie für stabile Produktion. Mehrere Punkte verdienen kritische Beobachtung, bevor produktive Agenten auf einer der neuen Plattformen aufgesetzt werden.
Hinzu kommt die Reife der Bibliotheken. Anthropic Managed Agents ist Public Beta, Guild.ai ist gerade gestartet, Google Gemini Enterprise wird unter Last erst noch zeigen, wo die echten Limits liegen. Wer 2026 produktiv geht, sollte nicht nur den Datenblatt-Vergleich machen, sondern auch eigene Stress-Tests mit realistischen Volumina einplanen.
Was Unternehmen jetzt tun sollten
Die Plattformwahl steht jetzt an. Sie zu verschieben bedeutet, drei bis sechs Monate später mit einer Konfiguration umziehen zu müssen, die intern bereits Wurzeln geschlagen hat. Sechs Schritte führen zu einer belastbaren Entscheidung.
-
Inventur erstellen
Welche Agenten laufen heute schon, auf welchem Harness, mit welchen Tools, mit welchen Daten. Ohne diesen Schritt führt jede Plattform-Diskussion ins Leere.
-
Sourcing-Matrix bauen
Pro Anwendungsfall die vier Modelle (Managed, Open-Source, Plattform-Bundle, Vendor-neutral) bewerten, nach Kosten, Souveränität, Lock-in und Compliance. Eine Tabelle pro Use Case, kein Pauschalurteil.
-
Pilot mit zwei Anbietern
Maximal zwei Plattformen parallel testen, jeweils mit identischen Aufgaben und identischer Eval. Terminal-Bench 2.0, ARC-AGI-3 oder ein eigener Aufgaben-Benchmark liefern vergleichbare Zahlen.
-
Governance-Owner benennen
Eine Person aus IT-Sicherheit oder Compliance ist verantwortlich für die Audit-Trail-Auswertung und die Notbremse. Ohne Owner ist der Audit-Log nur ein Datenfriedhof.
-
Vertragsprüfung mit Datenschutz
Auftragsverarbeitung, Datenresidenz, Subprozessoren, Audit-Rechte und Exit-Klausel prüfen, bevor produktive Daten in Sessions fließen. Eine fehlende Exit-Klausel kostet später am meisten.
-
Forschung beobachten
Stanford Meta-Harness ist Open Source. Wer eigene Konfigurationen optimieren will, sollte den Ansatz im Auge behalten. Nicht produktiv kopieren, aber als Werkzeug verstehen.
Weiterführende Informationen
Häufig gestellte Fragen
Eine Agent Control Plane ist die Laufzeit-Infrastruktur, die KI-Agenten startet, überwacht, drosselt und beendet. Sie verwaltet Berechtigungen, führt Audit-Logs, verteilt Tools über das Model Context Protocol und stellt Rollbacks sicher. Im Gegensatz zum reinen Modell-Endpunkt ist sie zustandsbehaftet und langlaufend.
Anthropic Managed Agents kostet 0,08 US-Dollar pro aktiver Session-Stunde, abgerechnet auf die Millisekunde. Idle-Zeit ist kostenlos. Token-Kosten kommen on top und entsprechen den Standard-Claude-API-Raten. Es gibt keine flache Monatsgebühr und keine Lizenz pro Agent. Bei einem produktiven Agenten mit acht Stunden Laufzeit am Tag entstehen pro Monat etwa 230 US-Dollar Session-Gebühren plus Token.
Der Harness ist die Software-Schicht um ein einzelnes KI-Modell mit Tools, Kontextkurierung, Memory und Hooks. Eine Control Plane verwaltet viele Harnesses und Agenten zentral, mit Governance, Audit, Tool-Registry und Abrechnung. Vereinfacht: Der Harness ist der Motor, die Control Plane ist die Werkstatt mit Wartungsprotokollen.
Meta-Harness automatisiert die Optimierung von Harness-Konfigurationen. Ein Claude-Code-Agent als Proposer hat Filesystem-Zugriff auf alle bisherigen Konfigurationen, Traces und Bewertungen und nutzt bis zu 10 Millionen Token diagnostischer Daten pro Optimierungsschritt. Mit Claude Opus 4.6 erreicht das System 76,4 Prozent Pass-Rate auf Terminal-Bench 2.0 und Rang 2 im Leaderboard, mit Haiku 4.5 Rang 1 in der Haiku-Kategorie. Die Erkenntnis: Harness-Optimierung ist selbst ein lösbares Optimierungsproblem.
Die Wahl hängt von Souveränitäts-, Compliance- und Lock-in-Anforderungen ab. Pay-per-Session-Modelle wie Anthropic Managed Agents vereinfachen den Einstieg, binden aber an US-Hosting. Open-Source-Harnesses wie Codex maximieren Kontrolle, brauchen aber ein Plattform-Team. Plattform-Bundles wie Google Gemini Enterprise eignen sich, wenn die Cloud-Strategie ohnehin festliegt. Vendor-neutrale Optionen wie Guild.ai bieten Multi-Vendor-Flexibilität, sind aber jung. Eine Sourcing-Matrix pro Anwendungsfall ist die belastbarere Methode als ein Pauschalurteil.
Ab dem 2. August 2026 gelten die Hochrisiko-Pflichten des EU AI Act für Anhang-III-Systeme. Eine Control Plane mit nachvollziehbaren Logs, menschlicher Aufsicht und Risiko-Management ist Voraussetzung, kein Bonus. Wichtig: Audit-Logs ohne Auswertungsprozess erfüllen die Anforderung nicht. Die Pflicht "menschliche Aufsicht" verlangt einen Prozess mit Verantwortlichen, nicht nur eine Logfile-Schreibarbeit.