Claude Managed Agents bekommen Dreaming, Outcomes und Multiagent-Orchestrierung
Anthropic verschiebt den Wettbewerb von Modellauswahl zu Agent-Engineering. Dreaming kuratiert Memory zwischen Sessions, Outcomes prüft Ergebnisse gegen Rubriken, ein Lead-Agent dirigiert bis zu 20 Subagenten. Für deutsche Unternehmen bleibt die Datenresidenz die Schlüsselfrage, weil die Plattform ausschließlich in den USA läuft.
Anthropic hat am 6. Mai 2026 auf dem Code w/ Claude Event in San Francisco vier neue Funktionen für Claude Managed Agents vorgestellt: Dreaming als Research Preview, Outcomes und Multiagent-Orchestrierung als Public Beta sowie Webhooks. Dreaming liest bis zu 100 vergangene Sessions und kuratiert die Memory, Outcomes erhöht laut interner Anthropic-Tests die Erfolgsrate bei docx-Generierung um 8,4 Prozent und bei pptx um 10,1 Prozent, Multiagent-Orchestrierung verteilt Aufgaben auf bis zu 20 spezialisierte Subagenten in bis zu 25 parallelen Threads. Harvey meldet eine etwa sechsfach höhere Abschlussrate durch Dreaming, Netflix verarbeitet Build-Logs hunderter Pipelines parallel, Wisedocs verkürzt Dokumentenprüfungen um 50 Prozent. Für deutsche Unternehmen mit DSGVO-Pflichten ist die Plattform nur über AWS Bedrock AgentCore in eu-central-1 oder Vertex AI in europe-west3 nutzbar, beide mit 10 bis 25 Prozent Preisaufschlag. Die EU-AI-Act-Hochrisikoregeln greifen am 2. August 2026 und adressieren genau die offene Frage der Verantwortlichkeit in Multi-Agent-Setups.
Was Anthropic am 6. Mai 2026 veröffentlicht hat
Anthropic hat am 6. Mai 2026 auf dem Code w/ Claude Event in San Francisco vier neue Funktionen für Claude Managed Agents vorgestellt. Die Plattform ist erst seit dem 8. April 2026 am Markt, also gut vier Wochen alt. Mit den neuen Features verschiebt sich der Wettbewerb von der reinen Modellqualität hin zu Agent-Engineering und Selbstverbesserung.
- Vier Funktionen: Dreaming als Research Preview, Outcomes und Multiagent-Orchestrierung als Public Beta, Webhooks für Task-Benachrichtigungen
- Vorgestellt von Ami Vora (Chief Product Officer) und Boris Cherny (Schöpfer von Claude Code) auf dem Code w/ Claude Event
- Parallel angekündigt: verdoppelte Rate Limits für Claude Code Pro und Max, Wegfall des Peak-Hour-Throttlings
- SpaceX-Partnerschaft für das Colossus-Rechenzentrum mit über 300 Megawatt zusätzlicher Kapazität und mehr als 220.000 GPUs innerhalb eines Monats
- API-Volumen ist nach Anthropic-Angaben innerhalb eines Jahres um Faktor 17 gewachsen
Modellqualität ist 2026 kein Wettbewerbsvorteil mehr, der Wettbewerb verschiebt sich auf Agent-Engineering. Die Control-Plane-Frage wird entscheidender als die Modellwahl.
Dreaming: Wie Agenten zwischen Sessions lernen
Dreaming ist ein geplanter Hintergrundprozess, der vergangene Agent-Sessions analysiert, wiederkehrende Muster identifiziert und den Memory Store kuratiert. Anthropic vergleicht den Mechanismus mit der Konsolidierung von Hippocampus-Erinnerungen während des Schlafs. Konkret liest Dreaming bis zu 100 vergangene Sessions und den bestehenden Memory Store, entfernt Duplikate und veraltete Einträge und baut die Memory neu auf, ohne die Original-Transkripte zu verändern.
- Erkennt wiederkehrende Fehler, konvergierende Workflows und im Team geteilte Präferenzen, die einem einzelnen Agenten verborgen bleiben
- Aktualisierungen wahlweise automatisch oder erst nach manuellem Review wirksam
- Unterstützte Modelle: Claude Opus 4.7 und Sonnet 4.6, abgerechnet über reguläre API-Tokens, keine zusätzliche Lizenzgebühr
- Anwendungsfall Harvey: die Legal-AI-Firma meldet rund sechsfach höhere Abschlussrate durch institutionelles Wissen aus Dreaming, etwa Akten-Handhabungsprotokolle
- Status: Research Preview, Zugang nur über Antragsformular bei Anthropic
Die Idee, Agenten ihre eigenen Sessions auswerten zu lassen, ist nicht neu. Der Hermes-Ansatz von Nous Research hat ein ähnliches Selbstverbesserungs-Konzept im Open-Source-Lager vorgelegt. Anthropics Variante hat den Vorteil, dass sie ohne eigenes Training auskommt und in eine vorhandene Plattform integriert ist.
Outcomes: Rubriken statt Prompts
Outcomes verschiebt die Verantwortung für Qualität vom Prompt-Engineer zum Grader. Entwickler definieren eine Rubrik, die beschreibt, wie Erfolg aussieht. Ein separater Grader-Agent in eigenem Kontextfenster prüft das Ergebnis gegen diese Kriterien. Liegt das Ergebnis darunter, identifiziert der Grader die Lücken und der Agent überarbeitet bis zu drei Mal, in Ausnahmefällen bis zu 20 Mal.
Outcomes ist Public Beta und über einen API-Header aktivierbar. Wer eine messbare Definition von Erfolg hat, kann den Mechanismus heute produktiv einsetzen, ohne neue Modelle oder neue SDKs.
Multiagent-Orchestrierung: Bis zu 20 Spezialisten unter einem Lead-Agenten
Multiagent-Orchestrierung löst das Kontextfenster-Problem großer Aufgaben. Ein Lead-Agent zerlegt einen Auftrag in Teilaufgaben und delegiert diese an Subagenten mit eigenem Modell, Prompt und Werkzeugset. Die Spezialisten arbeiten parallel auf einem geteilten Filesystem und tragen ihre Ergebnisse in den Gesamtkontext des Lead-Agenten zurück.
- Bis zu 20 verschiedene Agentenrollen, bis zu 25 parallele Threads
- Single-Level-Modell: keine Sub-Orchestratoren, also kein rekursives Delegieren
- Volle Nachvollziehbarkeit über die Anthropic Console
Auftrag zerlegen
Lead-Agent analysiert die Aufgabe und definiert die Subagenten samt Modell, Prompt und Werkzeugen.
Parallel arbeiten
Spezialisten arbeiten gleichzeitig auf einem geteilten Filesystem, jeder im eigenen Kontext.
Zusammenführen
Lead-Agent konsolidiert die Ergebnisse, die Console protokolliert jeden Schritt.
Anthropic zeigte in der Demo, wie ein Lead-Agent einen Vorfall untersucht, während Subagenten parallel durch Deploy-History, Error-Logs, Metriken und Support-Tickets fächern. Netflix nutzt das Muster produktiv für Build-Logs hunderter Pipelines. Spiral by Every kombiniert Haiku 4.5 als Spezialist mit Opus 4.7 als Lead und erreicht laut eigener Aussage Frontier-Qualität bei rund einem Fünftel der Kosten.
Vergleichbar mit OpenAIs Ansatz: Symphony nutzt ein ähnliches Lead-und-Subagenten-Muster, ist aber an das Codex-Ökosystem gekoppelt. Wer beide Plattformen abwägt, sollte den Wettlauf um die Control Plane und die Vendor-Lock-in-Frage mitdenken.
Deutsche und EU-Perspektive: Datenresidenz und DSGVO
Claude Managed Agents laufen ausschließlich auf Anthropic-eigener Infrastruktur in den USA. Für deutsche Mittelständler und Konzerne mit DSGVO-Pflichten ist die Direktnutzung damit nur eingeschränkt möglich. Anthropic hat im März 2026 ein Büro in München eröffnet und einen Head of DACH und CEE eingestellt, an der US-Datenresidenz ändert das nichts.
| Option | EU-Datenresidenz | Orchestrierung | Aufschlag |
|---|---|---|---|
| Anthropic direkt | Nein, US-only | Vollständig nativ | 0 Prozent |
| AWS Bedrock AgentCore | eu-central-1 Frankfurt | Managed, nativer MCP-Support | 10 bis 25 Prozent |
| Google Vertex AI | europe-west3 Frankfurt | Selbst gebaut | 10 bis 25 Prozent |
Bei Bedrock AgentCore kommt eine zusätzliche Latenz von 3 bis 4 Sekunden hinzu, weil Anfragen über AWS-eigene Endpunkte laufen. Für viele Backoffice-Workflows ist das vertretbar, für Echtzeit-Kundeninteraktionen meist nicht. Die Hochrisiko-Fristen des EU AI Act treten am 2. August 2026 in Kraft und greifen genau die Frage der Verantwortlichkeit in Multi-Agent-Setups auf, die der Gesetzestext bisher nicht explizit klärt.
Datenresidenz vor Featureauswahl. Wer DSGVO-Pflichten hat, sollte AWS Bedrock AgentCore in Frankfurt als Default annehmen und die Anthropic-Direktnutzung nur für Prototyping und nicht-personenbezogene Daten zulassen.
Herausforderungen und Risiken
Mehr Autonomie bedeutet größeren Schaden bei Fehlentscheidungen. Halluzinationen werden bei Agenten nicht mehr nur falsche Antworten, sondern falsche Handlungen mit realen Konsequenzen. Multi-Agent-Setups verschärfen diese Risiken, weil Fehler über Agentengrenzen hinweg kaskadieren.
OWASP Top 10 für Agentic Applications 2026: Memory Poisoning, Goal Hijacking, Tool Misuse, Identity Abuse und Cascading Failures stehen als spezifische Risiken autonomer Agenten in der ersten formalen Taxonomie. Ein Agent kann Zugangsdaten für CRM, E-Mail, Cloud-Infrastruktur und Zahlungssysteme gleichzeitig halten, eine Kompromittierung wird zum Mehrfachschaden.
- Memory Poisoning: Bösartige Einträge im Memory Store überdauern Sessions und beeinflussen künftiges Verhalten. Bekanntes Angriffsszenario: präparierte Gerichtsakten, die ein Legal-Agent später abruft und daraus Aktionen ableitet.
- Cascading Failures: Ein fehlerhafter Subagent kann den gesamten Workflow kompromittieren, der Lead-Agent erkennt das nicht immer.
- Audit-Lücke bei Dreaming: Wenn die Memory zwischen Sessions automatisch kuratiert wird, bleibt offen, wie nachträgliches Erklären einer Agentenentscheidung praktikabel funktioniert.
- Regulatorische Unschärfe: Der EU AI Act definiert agentische Systeme nicht explizit, die orchestrierte Verantwortung mehrerer Agenten bleibt juristisch ungeklärt.
- Identitätsproblem: Multi-Agent-Setups verlangen ein Identity-Modell für nicht-menschliche Akteure, das in den meisten Unternehmen noch fehlt.
Was Unternehmen jetzt tun sollten
Die neuen Features lohnen sich nur, wenn Architektur und Governance mitwachsen. Unternehmen sollten nicht aus Begeisterung über Dreaming und Multiagent-Orchestrierung die Plattformfrage übergehen, sondern beides parallel klären.
-
Datenresidenz vor Featureauswahl
Wer DSGVO-Pflichten hat, sollte direkt mit AWS Bedrock AgentCore in Frankfurt starten. Anthropic-Direkt nur für Prototypen mit nicht-personenbezogenen Daten zulassen.
-
Outcomes vor Dreaming einführen
Rubriken zwingen das Team zu einer messbaren Definition von Erfolg, bevor Agenten daraus lernen. Ohne klare Erfolgskriterien lernt Dreaming die falschen Muster.
-
Multiagent-Setups klein beginnen
Zwei bis drei Spezialisten unter einem Lead-Agenten, nicht 20 auf einmal. Erst nach 4 bis 6 Wochen stabilen Betriebs zusätzliche Subagenten aufnehmen.
-
Memory Governance definieren
Wer darf Einträge im Memory Store erzeugen, ändern, löschen? Wie werden Quelle, Zeitstempel und Trigger jedes Eintrags protokolliert? Ohne diese Antworten bleibt Dreaming ein Audit-Risiko.
-
Audit-Anforderungen testen
Eine Stichprobe von Agentenentscheidungen vollständig reproduzieren und nachvollziehen, bevor produktiv geschaltet wird. Dazu gehören die kuratierten Memory-Inhalte, die Rubrik des Graders und die Werkzeuge jedes Subagenten.
-
Lieferanten-Strategie offen halten
Anthropic-Features sind heute Vorsprung, in 3 bis 6 Monaten erwartet die Branche äquivalente Funktionen bei OpenAI, Google und Salesforce. Architektur portabel auslegen, etwa mit Model Context Protocol als Werkzeug-Schicht.
Wer die Governance-Frage für Enterprise-Agenten ernst nimmt, sieht die neuen Features als Hebel, nicht als Selbstzweck. Ein gut definierter Outcomes-Rubric ist mehr wert als drei zusätzliche Subagenten.
Weiterführende Informationen
Häufig gestellte Fragen
Anthropic hat am 6. Mai 2026 vier neue Funktionen vorgestellt: Dreaming als Research Preview, Outcomes und Multiagent-Orchestrierung als Public Beta sowie Webhooks für Task-Benachrichtigungen. Dreaming kuratiert die Memory zwischen Sessions, Outcomes prüft Ergebnisse gegen Rubriken und Multiagent-Orchestrierung delegiert Aufgaben an bis zu 20 Spezialisten unter einem Lead-Agenten.
Dreaming ist ein geplanter Hintergrundprozess, der bis zu 100 vergangene Sessions und den bestehenden Memory Store analysiert. Er entfernt Duplikate, erkennt wiederkehrende Fehler und Workflows und baut eine organisierte Memory neu auf. Die Original-Transkripte bleiben unverändert. Unterstützte Modelle sind Claude Opus 4.7 und Sonnet 4.6, abgerechnet über reguläre API-Tokens.
Claude Managed Agents laufen direkt nur auf Anthropic-Infrastruktur in den USA. Für DSGVO-Pflichten gibt es zwei EU-Optionen: AWS Bedrock AgentCore in der Region eu-central-1 Frankfurt mit nativer Managed Orchestration oder Google Vertex AI in europe-west3 Frankfurt, hier muss die Orchestrierung selbst gebaut werden. Beide Optionen kosten 10 bis 25 Prozent mehr als die Direktnutzung.
Ein Lead-Agent kann bis zu 20 verschiedene Subagent-Typen mit jeweils eigenem Modell, Prompt und Werkzeugset koordinieren. Insgesamt können bis zu 25 parallele Threads gleichzeitig laufen. Subagenten teilen ein gemeinsames Filesystem. Das Modell ist single-level, also keine Sub-Orchestratoren und kein rekursives Delegieren erlaubt.
Memory Poisoning kann persistent über Sessions hinweg Agentenverhalten beeinflussen. Cascading Failures pflanzen sich über Agentengrenzen hinweg fort. Goal Hijacking und Tool Misuse stehen in den OWASP Top 10 für agentische Anwendungen 2026. Hinzu kommt, dass ein Agent oft Zugangsdaten für mehrere Systeme gleichzeitig hält. Der EU AI Act definiert agentische Systeme bisher nicht explizit, die Verantwortung in Multi-Agent-Setups bleibt juristisch unklar.
Outcomes liefert in internen Anthropic-Tests bis zu 10 Prozentpunkte höhere Erfolgsrate. Bei docx-Generierung sind es plus 8,4 Prozent, bei pptx plus 10,1 Prozent. Der separate Grader arbeitet in eigenem Kontextfenster und vermeidet damit Reasoning Bias, den klassische Self-Evaluation oft erzeugt. Wisedocs verkürzt medizinische Dokumentenprüfungen über Outcomes um 50 Prozent bei gleichbleibender Qualität.