Bauleiter mit Helm und gelber Warnweste am Zaun einer Rechenzentrums-Baustelle in Norddeutschland, dokumentarische Szene unter flachem Licht

Agent Control Plane 2026: Der Wettlauf um den Harness

Vier Wochen, sechs Plattform-Launches und ein Stanford-Paper, das die Optimierung selbst automatisiert

Zwischen dem 8. und 29. April 2026 haben sechs der wichtigsten KI- und Cloud-Anbieter ihren eigenen Agent-Harness als Produkt veröffentlicht. Aus einer Engineering-Disziplin wurde eine Einkaufskategorie. Wer 2025 noch entschieden hat, welches Modell er nutzt, entscheidet jetzt zusätzlich, welche Control-Plane seine Agenten betreibt, mit welchem Preismodell und welcher Souveränität.

Zusammenfassung

Innerhalb von vier Wochen sind Anthropic Managed Agents (8. April), das OpenAI Agents SDK Update (15. April), Snowflake Cortex Code (21. April), Salesforce Agent Fabric (21. April), Google Gemini Enterprise auf der Cloud Next 2026 (22. April) und Guild.ai mit 44 Millionen US-Dollar Series A (29. April) gestartet. Parallel zeigt das Stanford-Paper Meta-Harness mit 76,4 Prozent auf Terminal-Bench 2.0, dass Harness-Konfigurationen automatisch optimierbar sind. Für Mittelstand und Enterprise heißt das: Vier Geschäftsmodelle stehen jetzt parallel im Markt, von Pay-per-Session über Open-Source bis zu vendor-neutralen Control-Planes. Die Plattformwahl bindet zwei bis drei Jahre und sollte vor neuen produktiven Agenten getroffen werden.

Was sich in vier Wochen verändert hat

Zwischen dem 8. und 29. April 2026 haben sechs der wichtigsten KI- und Cloud-Anbieter ihren eigenen Agent-Harness als Produkt auf den Markt gebracht. Aus einer Engineering-Disziplin wurde innerhalb eines Monats eine Einkaufskategorie. Das verändert Plattform-Roadmaps in IT-Abteilungen quer durch den Mittelstand und die Enterprise-IT.

8. April 2026

Anthropic Managed Agents

Public Beta des vollständig gehosteten Agent-Runtime, abgerechnet zu 0,08 US-Dollar pro aktiver Session-Stunde. Startkunden sind Notion, Rakuten, Sentry und Asana.

15. April 2026

OpenAI Agents SDK Update

Der Codex-Harness wird Open Source und über das aktualisierte Agents SDK bereitgestellt. Cloudflare Agent Cloud bietet eine direkt einsetzbare Hosting-Variante.

21. April 2026

Snowflake Cortex Code und Salesforce Agent Fabric

Snowflake verankert die Control Plane in der Datenplattform. Salesforce liefert mit Agent Fabric eine Multi-Vendor-Governance-Schicht für CRM-Workloads.

22. April 2026

Google Cloud Next 2026: Gemini Enterprise

Google positioniert die Gemini Enterprise Agent Platform als zentrale Control Plane und kündigt 750 Millionen US-Dollar für das Partner-Ökosystem an.

29. April 2026

Guild.ai Series A

Mit 44 Millionen US-Dollar von Google Ventures, NFX, Acrew, Khosla, Scribble und Webb startet Guild.ai als vendor-neutrale, modell-agnostische Alternative zu den Hyperscalern.

Kernbefund

Was bisher als Engineering-Aufgabe in Plattform-Teams lag, wird in Q2 2026 zur Plattform-Entscheidung in der IT-Strategie. Die Wahl bindet Sessions, Memory-Format, Tool-Registry und Audit-Logs. Eine spätere Migration ist deutlich teurer als ein Modellwechsel.

Was eine Control Plane für KI-Agenten leistet

Eine Agent Control Plane übernimmt die Aufgaben, die im klassischen Cloud-Stack zu Kubernetes, Service Mesh und IAM gehören. Sie startet, überwacht, drosselt und beendet Agenten, führt Audit-Logs, verwaltet Berechtigungen, verteilt Tools über das Model Context Protocol und stellt Rollbacks sicher. Im Gegensatz zum reinen Modell-Endpunkt ist sie zustandsbehaftet und langlaufend.

Agent Control Plane ist die zentrale Laufzeit- und Verwaltungsschicht, die Sessions von KI-Agenten orchestriert. Sie sitzt zwischen den Modellen und den Unternehmenssystemen, mit Governance, Audit und Tool-Verteilung als Kernfunktionen.

GOV

Governance

Wer darf welchen Agenten gegen welches System einsetzen, wer prüft die Aktionen, welche Limits gelten pro Team und Anwendungsfall.

SEC

Sicherheit

Sandboxing, Secret-Management, Approval-Stufen für kritische Aktionen und eine Notbremse für entgleiste Sessions.

OBS

Observability

Trace-Speicher pro Sitzung, deterministische Replays, Kostenabrechnung pro Session, Anomalie-Erkennung.

TOOL

Tool-Registry

Einheitlicher Zugriff auf MCP-Tools und A2A-Protokolle, Versionierung pro Tool, Freigabeprozess für neue Werkzeuge.

MEM

Speicher

Memory-Hierarchie über Konversation, Projekt, Organisation und globale Wissensbasis, mit Verfallsdaten und Löschpolicies.

PAY

Abrechnung

Pro Team, pro Agent, pro Anwendungsfall. Token-Kosten und Laufzeit-Kosten getrennt erfassbar, mit Quoten und Alarmen.

Die Verbindung zur etablierten Disziplin Harness Engineering ist eng. Der Harness ist die Software-Schicht um ein einzelnes KI-Modell, die Control Plane verwaltet viele dieser Harnesses zentral. Vereinfacht: Der Harness ist der Motor, die Control Plane ist die Werkstatt mit Wartungsprotokollen.

Marktanalyse

Die vier Geschäftsmodelle parallel im Markt

Die Anbieter sind sich einig, dass der Harness das Produkt ist. Sie sind sich uneinig darüber, wie er bezahlt werden soll. Vier Modelle stehen jetzt nebeneinander im Markt, und sie decken unterschiedliche Anwendungsfälle und Risikoprofile ab.

Zwei Produktmanager vor einem Whiteboard mit vier handgezeichneten Spalten zu Managed, Open Source, Plattform-Bundle und Vendor-neutral, in einem deutschen Enterprise-Besprechungsraum — Die Bewertung der vier Geschäftsmodelle gehört in den Plattform-Auswahlprozess der IT-Strategie 2026.

Modell	Vertreter	Preislogik	Stärke	Lock-in-Risiko
Pay-per-Session	Anthropic Managed Agents	0,08 USD pro aktiver Session-Stunde, Token zusätzlich	Vorhersagbar, schneller Einstieg	Hoch (Hosting nur bei Anthropic)
Open-Source-Harness	OpenAI Agents SDK, Codex-Harness	Token-Verbrauch, Hosting selbst getragen	Volle Kontrolle, kein Plattform-Aufschlag	Mittel (Tool-Format an OpenAI gekoppelt)
Plattform-Bundle	Google Gemini Enterprise, Snowflake Cortex Code, Salesforce Agent Fabric, Microsoft	Teil eines Cloud- oder SaaS-Vertrags	Integriert in bestehende Plattform	Sehr hoch (Cloud-Strategie folgt)
Vendor-neutrale Control Plane	Guild.ai	Eigenes Pricing, modell-agnostisch	Multi-Vendor, eigene Compliance	Niedrig (Modelle austauschbar)

Anthropic, OpenAI, Google und Microsoft sind sich einig, dass der Harness das Produkt ist. Sie sind sich uneinig über den Preis.

The New Stack, Marktanalyse , April 2026

Pay-per-Session sieht günstig aus, summiert sich aber bei langlaufenden Agenten. Ein Agent, der acht Stunden am Tag aktiv läuft, kostet allein an Session-Gebühren rund 230 US-Dollar pro Monat plus Token . Bei 50 produktiven Agenten ergibt das einen niedrigen sechsstelligen Jahresbetrag, ohne dass Modellaufrufe eingerechnet sind. Plattform-Bundles wirken kostenlos, weil die Investitionen als Sunk Cost in der Cloud-Rechnung verschwinden, vergrößern aber die Abhängigkeit vom Hyperscaler.

Was die Stanford-Studie Meta-Harness zeigt

Während die Anbieter den Harness als Produkt verkaufen, automatisiert Stanford bereits seine Optimierung. Das am 30. März 2026 veröffentlichte Paper Meta-Harness (Yoonho Lee, Roshen Nair, Qizheng Zhang, Kangwook Lee, Omar Khattab, Chelsea Finn) beschreibt das erste System, das Harness-Code per LLM iterativ verbessert und damit Benchmark-Spitzenwerte erreicht.

76,4%

Pass-Rate Terminal-Bench 2.0 mit Opus 4.6

37,6%

Pass-Rate mit Haiku 4.5, Rang 1 in der Kategorie

10 Mio.

Token diagnostischer Daten pro Optimierungsschritt

+13,7

Punkte LangChain-Sprung ohne Modellwechsel

Methodisch nutzt Meta-Harness einen Claude-Code-Agenten als Proposer mit unbeschränktem Filesystem-Zugriff auf bisherige Konfigurationen, Traces und Bewertungen. Das System inspiziert die Historie wie ein Entwickler mit Standard-Werkzeugen und schließt aus Misserfolgen auf Designänderungen. Die Skala liegt um den Faktor von rund 500.000 über klassischen Text-Optimierern, die mit komprimierten Skalar-Belohnungen arbeiten.

LangChain hat schon vorher gezeigt, dass dasselbe Prinzip auch ohne Auto-Optimierung funktioniert. Engineer Vivek Trivedy beschreibt in einem Blogpost vom 17. Februar 2026, wie der hauseigene Coding-Agent ohne Modellwechsel von 52,8 auf 66,5 Prozent auf Terminal-Bench 2.0 gestiegen ist und damit von Rang 30 auf Rang 5. Die Hebel waren ein "Reasoning Sandwich" mit gezielter Compute-Verteilung, drei spezialisierte Middleware-Hooks für Pre-Completion-Checklist, Local-Context-Mapping und Loop-Detection sowie eine klare Phasentrennung in Plan, Build, Verify und Fix.

Das Ziel eines Harness ist, die inhärent ungleichmäßige Intelligenz eines Modells für die Aufgaben zu formen, die uns wirklich wichtig sind.

Vivek Trivedy, LangChain

EU-Kontext

Deutsche und EU-Perspektive

Für deutsche Unternehmen und EU-regulierte Branchen ist die neue Marktlage zweischneidig. Pay-per-Session und Plattform-Bundles vereinfachen den Einstieg und entlasten interne Plattform-Teams. Gleichzeitig konzentriert sich die Control Plane bei US-Hyperscalern, was die Diskussion um digitale Souveränität verschärft, die mit dem EU SEAL Framework ohnehin Fahrt aufgenommen hat.

Drei harte Anforderungen für den deutschen Einsatz

Hosting und Datenresidenz

Anthropic Managed Agents läuft ausschließlich auf Anthropic-Infrastruktur. Für Branchen mit EU-Datenresidenz-Anforderungen muss separat geprüft werden, wo die Sessions tatsächlich ausgeführt werden, und welche Subprozessoren beteiligt sind.

EU AI Act ab 2. August 2026

Die Hochrisiko-Pflichten verlangen nachvollziehbare Logs, menschliche Aufsicht, Risiko-Management und technische Dokumentation. Eine Control Plane mit Audit-Trail ist nicht optional, sondern Voraussetzung für den produktiven Betrieb.

DSGVO und Geschäftsgeheimnisse

Wer Tickets, Verträge oder Code an einen Managed-Agent sendet, exportiert Daten. Auftragsverarbeitung, Auftragsweitergabe, Löschfristen und Audit-Rechte gehören in den Vertrag, bevor produktive Daten in Sessions fließen.

Für den Mittelstand senkt der Einstieg über gehostete Plattformen den initialen Aufwand deutlich. Wer kein eigenes Plattform-Team aufbauen will, kommt mit Anthropic Managed Agents oder Google Gemini Enterprise schneller in den produktiven Betrieb. Der Preis dafür ist eine zweite Cloud-Abhängigkeit zusätzlich zur bestehenden Hyperscaler-Wahl. Wer bereits in eine Multi-Cloud-Strategie investiert hat oder digitale Souveränität als hartes Kriterium führt, sollte vendor-neutrale Optionen wie Guild.ai oder einen selbst betriebenen Codex-Harness ernsthaft prüfen.

Herausforderungen und Risiken

Die schnelle Marktreife ist keine Garantie für stabile Produktion. Mehrere Punkte verdienen kritische Beobachtung, bevor produktive Agenten auf einer der neuen Plattformen aufgesetzt werden.

Was kurzfristig hilft

Schneller Einstieg in produktive Agenten ohne eigenes Plattform-Team

Standardisierte Audit-Logs erleichtern EU-AI-Act-Vorbereitung

Konkurrenz drückt Preise (Beispiel Anthropic Pay-per-Session)

Vendor-neutrale Optionen verfügbar (Guild.ai)

Was langfristig bindet

Sessions, Memory-Format und Tool-Registry sind heute nicht portabel

Pay-per-Session summiert sich bei langlaufenden Agenten schnell

Auto-Optimierung von Demo-Setups führt zu Overfitting

Audit-Logs ohne Auswertungsprozess erfüllen EU AI Act nicht

Auto-Optimierung-Falle: Meta-Harness zeigt, dass die optimale Konfiguration stark modell- und benchmark-spezifisch ist. Eine Konfiguration aus einem Demo-Setup oder einem Benchmark-Lauf ist nicht ohne weiteres in die Produktion übertragbar. Auf Terminal-Bench 2.0 landete dasselbe Modell je nach Umgebung auf Rang 33 oder Rang 5.

Hinzu kommt die Reife der Bibliotheken. Anthropic Managed Agents ist Public Beta, Guild.ai ist gerade gestartet, Google Gemini Enterprise wird unter Last erst noch zeigen, wo die echten Limits liegen. Wer 2026 produktiv geht, sollte nicht nur den Datenblatt-Vergleich machen, sondern auch eigene Stress-Tests mit realistischen Volumina einplanen.

Handlungsempfehlungen

Was Unternehmen jetzt tun sollten

Die Plattformwahl steht jetzt an. Sie zu verschieben bedeutet, drei bis sechs Monate später mit einer Konfiguration umziehen zu müssen, die intern bereits Wurzeln geschlagen hat. Sechs Schritte führen zu einer belastbaren Entscheidung.

Gedruckte Sourcing-Matrix auf einem Schreibtisch in einem deutschen Enterprise-IT-Büro mit handschriftlichen Bleistift-Bewertungen für vier Anbieter zu Kosten, Souveränität, Lock-in und Compliance — Eine schriftliche Sourcing-Matrix entlastet die Plattform-Diskussion und macht die Entscheidung später nachvollziehbar.

Inventur erstellen

Welche Agenten laufen heute schon, auf welchem Harness, mit welchen Tools, mit welchen Daten. Ohne diesen Schritt führt jede Plattform-Diskussion ins Leere.
Sourcing-Matrix bauen

Pro Anwendungsfall die vier Modelle (Managed, Open-Source, Plattform-Bundle, Vendor-neutral) bewerten, nach Kosten, Souveränität, Lock-in und Compliance. Eine Tabelle pro Use Case, kein Pauschalurteil.
Pilot mit zwei Anbietern

Maximal zwei Plattformen parallel testen, jeweils mit identischen Aufgaben und identischer Eval. Terminal-Bench 2.0, ARC-AGI-3 oder ein eigener Aufgaben-Benchmark liefern vergleichbare Zahlen.
Governance-Owner benennen

Eine Person aus IT-Sicherheit oder Compliance ist verantwortlich für die Audit-Trail-Auswertung und die Notbremse. Ohne Owner ist der Audit-Log nur ein Datenfriedhof.
Vertragsprüfung mit Datenschutz

Auftragsverarbeitung, Datenresidenz, Subprozessoren, Audit-Rechte und Exit-Klausel prüfen, bevor produktive Daten in Sessions fließen. Eine fehlende Exit-Klausel kostet später am meisten.
Forschung beobachten

Stanford Meta-Harness ist Open Source. Wer eigene Konfigurationen optimieren will, sollte den Ansatz im Auge behalten. Nicht produktiv kopieren, aber als Werkzeug verstehen.

Plattform-Launches in vier Wochen

0,08 $

Pay-per-Session-Stundensatz Anthropic

76,4%

Meta-Harness auf Terminal-Bench 2.0

2. Aug.

EU AI Act Hochrisiko 2026

Weiterführende Informationen

Harness Engineering: Bauplan für KI-Agenten 2026 KI-Agenten-Plattformen: Vendor Lock-in als Strategiefrage KI-Agenten-Governance im Enterprise-Vergleich EU SEAL Framework: Cloud-Souveränität 2026 Architektur der Agency: Agentic-KI mit Risikominderung LangChain Blog: Improving Deep Agents with Harness Engineering Stanford IRIS Lab: Meta-Harness Terminal-Bench-2-Artifact (GitHub) Guild.ai: Pressemitteilung zum Series-A-Launch The New Stack: Pricing-Split der Hyperscaler

Häufig gestellte Fragen

Was ist eine Agent Control Plane? +

Eine Agent Control Plane ist die Laufzeit-Infrastruktur, die KI-Agenten startet, überwacht, drosselt und beendet. Sie verwaltet Berechtigungen, führt Audit-Logs, verteilt Tools über das Model Context Protocol und stellt Rollbacks sicher. Im Gegensatz zum reinen Modell-Endpunkt ist sie zustandsbehaftet und langlaufend.

Was kostet Anthropic Managed Agents? +

Anthropic Managed Agents kostet 0,08 US-Dollar pro aktiver Session-Stunde, abgerechnet auf die Millisekunde. Idle-Zeit ist kostenlos. Token-Kosten kommen on top und entsprechen den Standard-Claude-API-Raten. Es gibt keine flache Monatsgebühr und keine Lizenz pro Agent. Bei einem produktiven Agenten mit acht Stunden Laufzeit am Tag entstehen pro Monat etwa 230 US-Dollar Session-Gebühren plus Token.

Was ist der Unterschied zwischen Harness und Control Plane? +

Der Harness ist die Software-Schicht um ein einzelnes KI-Modell mit Tools, Kontextkurierung, Memory und Hooks. Eine Control Plane verwaltet viele Harnesses und Agenten zentral, mit Governance, Audit, Tool-Registry und Abrechnung. Vereinfacht: Der Harness ist der Motor, die Control Plane ist die Werkstatt mit Wartungsprotokollen.

Was hat das Stanford-Paper Meta-Harness gezeigt? +

Meta-Harness automatisiert die Optimierung von Harness-Konfigurationen. Ein Claude-Code-Agent als Proposer hat Filesystem-Zugriff auf alle bisherigen Konfigurationen, Traces und Bewertungen und nutzt bis zu 10 Millionen Token diagnostischer Daten pro Optimierungsschritt. Mit Claude Opus 4.6 erreicht das System 76,4 Prozent Pass-Rate auf Terminal-Bench 2.0 und Rang 2 im Leaderboard, mit Haiku 4.5 Rang 1 in der Haiku-Kategorie. Die Erkenntnis: Harness-Optimierung ist selbst ein lösbares Optimierungsproblem.

Welches Geschäftsmodell sollten deutsche Unternehmen wählen? +

Die Wahl hängt von Souveränitäts-, Compliance- und Lock-in-Anforderungen ab. Pay-per-Session-Modelle wie Anthropic Managed Agents vereinfachen den Einstieg, binden aber an US-Hosting. Open-Source-Harnesses wie Codex maximieren Kontrolle, brauchen aber ein Plattform-Team. Plattform-Bundles wie Google Gemini Enterprise eignen sich, wenn die Cloud-Strategie ohnehin festliegt. Vendor-neutrale Optionen wie Guild.ai bieten Multi-Vendor-Flexibilität, sind aber jung. Eine Sourcing-Matrix pro Anwendungsfall ist die belastbarere Methode als ein Pauschalurteil.

Wie passt das Ganze zum EU AI Act? +

Ab dem 2. August 2026 gelten die Hochrisiko-Pflichten des EU AI Act für Anhang-III-Systeme. Eine Control Plane mit nachvollziehbaren Logs, menschlicher Aufsicht und Risiko-Management ist Voraussetzung, kein Bonus. Wichtig: Audit-Logs ohne Auswertungsprozess erfüllen die Anforderung nicht. Die Pflicht "menschliche Aufsicht" verlangt einen Prozess mit Verantwortlichen, nicht nur eine Logfile-Schreibarbeit.