Tech-Beraterin auf einer Frankfurter Bürohaus-Dachterrasse prüft einen handgezeichneten Multiagent-Flowchart mit Lead-Agent und vier Subagenten vor der Skyline

Claude Managed Agents bekommen Dreaming, Outcomes und Multiagent-Orchestrierung

Vier neue Funktionen vom 6. Mai 2026 und was sie für deutsche Unternehmen bedeuten

Anthropic verschiebt den Wettbewerb von Modellauswahl zu Agent-Engineering. Dreaming kuratiert Memory zwischen Sessions, Outcomes prüft Ergebnisse gegen Rubriken, ein Lead-Agent dirigiert bis zu 20 Subagenten. Für deutsche Unternehmen bleibt die Datenresidenz die Schlüsselfrage, weil die Plattform ausschließlich in den USA läuft.

Zusammenfassung

Anthropic hat am 6. Mai 2026 auf dem Code w/ Claude Event in San Francisco vier neue Funktionen für Claude Managed Agents vorgestellt: Dreaming als Research Preview, Outcomes und Multiagent-Orchestrierung als Public Beta sowie Webhooks. Dreaming liest bis zu 100 vergangene Sessions und kuratiert die Memory, Outcomes erhöht laut interner Anthropic-Tests die Erfolgsrate bei docx-Generierung um 8,4 Prozent und bei pptx um 10,1 Prozent, Multiagent-Orchestrierung verteilt Aufgaben auf bis zu 20 spezialisierte Subagenten in bis zu 25 parallelen Threads. Harvey meldet eine etwa sechsfach höhere Abschlussrate durch Dreaming, Netflix verarbeitet Build-Logs hunderter Pipelines parallel, Wisedocs verkürzt Dokumentenprüfungen um 50 Prozent. Für deutsche Unternehmen mit DSGVO-Pflichten ist die Plattform nur über AWS Bedrock AgentCore in eu-central-1 oder Vertex AI in europe-west3 nutzbar, beide mit 10 bis 25 Prozent Preisaufschlag. Die EU-AI-Act-Hochrisikoregeln greifen am 2. August 2026 und adressieren genau die offene Frage der Verantwortlichkeit in Multi-Agent-Setups.

+10,1 %
Erfolg bei pptx-Generierung durch Outcomes
20
parallele Subagenten unter einem Lead
Abschlussrate Harvey durch Dreaming
50 %
Wisedocs Review-Zeit durch Outcomes

Was Anthropic am 6. Mai 2026 veröffentlicht hat

Anthropic hat am 6. Mai 2026 auf dem Code w/ Claude Event in San Francisco vier neue Funktionen für Claude Managed Agents vorgestellt. Die Plattform ist erst seit dem 8. April 2026 am Markt, also gut vier Wochen alt. Mit den neuen Features verschiebt sich der Wettbewerb von der reinen Modellqualität hin zu Agent-Engineering und Selbstverbesserung.

Claude Managed Agents ist Anthropics verwaltete Plattform für autonome agentische KI , die seit April 2026 Sessions, Memory, Werkzeuge und Orchestrierung als Service anbietet, mit Abrechnung pro aktiver Session-Stunde.
  • Vier Funktionen: Dreaming als Research Preview, Outcomes und Multiagent-Orchestrierung als Public Beta, Webhooks für Task-Benachrichtigungen
  • Vorgestellt von Ami Vora (Chief Product Officer) und Boris Cherny (Schöpfer von Claude Code) auf dem Code w/ Claude Event
  • Parallel angekündigt: verdoppelte Rate Limits für Claude Code Pro und Max, Wegfall des Peak-Hour-Throttlings
  • SpaceX-Partnerschaft für das Colossus-Rechenzentrum mit über 300 Megawatt zusätzlicher Kapazität und mehr als 220.000 GPUs innerhalb eines Monats
  • API-Volumen ist nach Anthropic-Angaben innerhalb eines Jahres um Faktor 17 gewachsen
Kernaussage

Modellqualität ist 2026 kein Wettbewerbsvorteil mehr, der Wettbewerb verschiebt sich auf Agent-Engineering. Die Control-Plane-Frage wird entscheidender als die Modellwahl.

Selbstlernen

Dreaming: Wie Agenten zwischen Sessions lernen

Dreaming ist ein geplanter Hintergrundprozess, der vergangene Agent-Sessions analysiert, wiederkehrende Muster identifiziert und den Memory Store kuratiert. Anthropic vergleicht den Mechanismus mit der Konsolidierung von Hippocampus-Erinnerungen während des Schlafs. Konkret liest Dreaming bis zu 100 vergangene Sessions und den bestehenden Memory Store, entfernt Duplikate und veraltete Einträge und baut die Memory neu auf, ohne die Original-Transkripte zu verändern.

  • Erkennt wiederkehrende Fehler, konvergierende Workflows und im Team geteilte Präferenzen, die einem einzelnen Agenten verborgen bleiben
  • Aktualisierungen wahlweise automatisch oder erst nach manuellem Review wirksam
  • Unterstützte Modelle: Claude Opus 4.7 und Sonnet 4.6, abgerechnet über reguläre API-Tokens, keine zusätzliche Lizenzgebühr
  • Anwendungsfall Harvey: die Legal-AI-Firma meldet rund sechsfach höhere Abschlussrate durch institutionelles Wissen aus Dreaming, etwa Akten-Handhabungsprotokolle
  • Status: Research Preview, Zugang nur über Antragsformular bei Anthropic

Die Idee, Agenten ihre eigenen Sessions auswerten zu lassen, ist nicht neu. Der Hermes-Ansatz von Nous Research hat ein ähnliches Selbstverbesserungs-Konzept im Open-Source-Lager vorgelegt. Anthropics Variante hat den Vorteil, dass sie ohne eigenes Training auskommt und in eine vorhandene Plattform integriert ist.

Outcomes: Rubriken statt Prompts

Outcomes verschiebt die Verantwortung für Qualität vom Prompt-Engineer zum Grader. Entwickler definieren eine Rubrik, die beschreibt, wie Erfolg aussieht. Ein separater Grader-Agent in eigenem Kontextfenster prüft das Ergebnis gegen diese Kriterien. Liegt das Ergebnis darunter, identifiziert der Grader die Lücken und der Agent überarbeitet bis zu drei Mal, in Ausnahmefällen bis zu 20 Mal.

Vorteile Outcomes
Separates Kontextfenster vermeidet Reasoning Bias der Self-Evaluation
Bis zu 10 Prozentpunkte höhere Erfolgsrate bei anspruchsvollen Aufgaben
+8,4 Prozent bei docx-Generierung, +10,1 Prozent bei pptx
Wisedocs: 50 Prozent schnellere medizinische Dokumentenprüfung
Grenzen Outcomes
Qualität der Rubrik entscheidet, eine schwache Rubrik liefert schwache Ergebnisse
Bis zu 20 Versuche bedeuten höhere Token-Kosten je Aufgabe
Grader-Agent selbst halluziniert grundsätzlich nicht weniger als der Hauptagent
Subjektive Qualitätsdimensionen lassen sich schwer in Rubrik-Form überführen

Outcomes ist Public Beta und über einen API-Header aktivierbar. Wer eine messbare Definition von Erfolg hat, kann den Mechanismus heute produktiv einsetzen, ohne neue Modelle oder neue SDKs.

Orchestrierung

Multiagent-Orchestrierung: Bis zu 20 Spezialisten unter einem Lead-Agenten

Multiagent-Orchestrierung löst das Kontextfenster-Problem großer Aufgaben. Ein Lead-Agent zerlegt einen Auftrag in Teilaufgaben und delegiert diese an Subagenten mit eigenem Modell, Prompt und Werkzeugset. Die Spezialisten arbeiten parallel auf einem geteilten Filesystem und tragen ihre Ergebnisse in den Gesamtkontext des Lead-Agenten zurück.

Zwei Entwickler in einem Berliner Loft-Studio beobachten einen Wandmonitor mit fünf parallelen Terminal-Panels und steigenden Zeilenzählern
Ein Lead-Agent fächert seine Aufgabe in fünf parallele Subagenten auf, jeder mit eigenem Werkzeugkasten.
  • Bis zu 20 verschiedene Agentenrollen, bis zu 25 parallele Threads
  • Single-Level-Modell: keine Sub-Orchestratoren, also kein rekursives Delegieren
  • Volle Nachvollziehbarkeit über die Anthropic Console
Lead

Auftrag zerlegen

Lead-Agent analysiert die Aufgabe und definiert die Subagenten samt Modell, Prompt und Werkzeugen.

Sub

Parallel arbeiten

Spezialisten arbeiten gleichzeitig auf einem geteilten Filesystem, jeder im eigenen Kontext.

Lead

Zusammenführen

Lead-Agent konsolidiert die Ergebnisse, die Console protokolliert jeden Schritt.

Anthropic zeigte in der Demo, wie ein Lead-Agent einen Vorfall untersucht, während Subagenten parallel durch Deploy-History, Error-Logs, Metriken und Support-Tickets fächern. Netflix nutzt das Muster produktiv für Build-Logs hunderter Pipelines. Spiral by Every kombiniert Haiku 4.5 als Spezialist mit Opus 4.7 als Lead und erreicht laut eigener Aussage Frontier-Qualität bei rund einem Fünftel der Kosten.

Vergleichbar mit OpenAIs Ansatz: Symphony nutzt ein ähnliches Lead-und-Subagenten-Muster, ist aber an das Codex-Ökosystem gekoppelt. Wer beide Plattformen abwägt, sollte den Wettlauf um die Control Plane und die Vendor-Lock-in-Frage mitdenken.

Deutsche und EU-Perspektive: Datenresidenz und DSGVO

Claude Managed Agents laufen ausschließlich auf Anthropic-eigener Infrastruktur in den USA. Für deutsche Mittelständler und Konzerne mit DSGVO-Pflichten ist die Direktnutzung damit nur eingeschränkt möglich. Anthropic hat im März 2026 ein Büro in München eröffnet und einen Head of DACH und CEE eingestellt, an der US-Datenresidenz ändert das nichts.

Maschendrahtzaun und niedrige Betonhallen eines Hyperscaler-Rechenzentrums am Frankfurter Stadtrand bei diffusem Mittagslicht
Frankfurt ist der einzige EU-Standort, an dem deutsche Unternehmen Claude-Modelle DSGVO-konform betreiben können, über AWS Bedrock oder Google Vertex AI.
Option EU-Datenresidenz Orchestrierung Aufschlag
Anthropic direkt Nein, US-only Vollständig nativ 0 Prozent
AWS Bedrock AgentCore eu-central-1 Frankfurt Managed, nativer MCP-Support 10 bis 25 Prozent
Google Vertex AI europe-west3 Frankfurt Selbst gebaut 10 bis 25 Prozent

Bei Bedrock AgentCore kommt eine zusätzliche Latenz von 3 bis 4 Sekunden hinzu, weil Anfragen über AWS-eigene Endpunkte laufen. Für viele Backoffice-Workflows ist das vertretbar, für Echtzeit-Kundeninteraktionen meist nicht. Die Hochrisiko-Fristen des EU AI Act treten am 2. August 2026 in Kraft und greifen genau die Frage der Verantwortlichkeit in Multi-Agent-Setups auf, die der Gesetzestext bisher nicht explizit klärt.

Was deutsche Unternehmen jetzt klären sollten

Datenresidenz vor Featureauswahl. Wer DSGVO-Pflichten hat, sollte AWS Bedrock AgentCore in Frankfurt als Default annehmen und die Anthropic-Direktnutzung nur für Prototyping und nicht-personenbezogene Daten zulassen.

Risiken

Herausforderungen und Risiken

Mehr Autonomie bedeutet größeren Schaden bei Fehlentscheidungen. Halluzinationen werden bei Agenten nicht mehr nur falsche Antworten, sondern falsche Handlungen mit realen Konsequenzen. Multi-Agent-Setups verschärfen diese Risiken, weil Fehler über Agentengrenzen hinweg kaskadieren.

OWASP Top 10 für Agentic Applications 2026: Memory Poisoning, Goal Hijacking, Tool Misuse, Identity Abuse und Cascading Failures stehen als spezifische Risiken autonomer Agenten in der ersten formalen Taxonomie. Ein Agent kann Zugangsdaten für CRM, E-Mail, Cloud-Infrastruktur und Zahlungssysteme gleichzeitig halten, eine Kompromittierung wird zum Mehrfachschaden.

  • Memory Poisoning: Bösartige Einträge im Memory Store überdauern Sessions und beeinflussen künftiges Verhalten. Bekanntes Angriffsszenario: präparierte Gerichtsakten, die ein Legal-Agent später abruft und daraus Aktionen ableitet.
  • Cascading Failures: Ein fehlerhafter Subagent kann den gesamten Workflow kompromittieren, der Lead-Agent erkennt das nicht immer.
  • Audit-Lücke bei Dreaming: Wenn die Memory zwischen Sessions automatisch kuratiert wird, bleibt offen, wie nachträgliches Erklären einer Agentenentscheidung praktikabel funktioniert.
  • Regulatorische Unschärfe: Der EU AI Act definiert agentische Systeme nicht explizit, die orchestrierte Verantwortung mehrerer Agenten bleibt juristisch ungeklärt.
  • Identitätsproblem: Multi-Agent-Setups verlangen ein Identity-Modell für nicht-menschliche Akteure, das in den meisten Unternehmen noch fehlt.

Was Unternehmen jetzt tun sollten

Die neuen Features lohnen sich nur, wenn Architektur und Governance mitwachsen. Unternehmen sollten nicht aus Begeisterung über Dreaming und Multiagent-Orchestrierung die Plattformfrage übergehen, sondern beides parallel klären.

  1. Datenresidenz vor Featureauswahl

    Wer DSGVO-Pflichten hat, sollte direkt mit AWS Bedrock AgentCore in Frankfurt starten. Anthropic-Direkt nur für Prototypen mit nicht-personenbezogenen Daten zulassen.

  2. Outcomes vor Dreaming einführen

    Rubriken zwingen das Team zu einer messbaren Definition von Erfolg, bevor Agenten daraus lernen. Ohne klare Erfolgskriterien lernt Dreaming die falschen Muster.

  3. Multiagent-Setups klein beginnen

    Zwei bis drei Spezialisten unter einem Lead-Agenten, nicht 20 auf einmal. Erst nach 4 bis 6 Wochen stabilen Betriebs zusätzliche Subagenten aufnehmen.

  4. Memory Governance definieren

    Wer darf Einträge im Memory Store erzeugen, ändern, löschen? Wie werden Quelle, Zeitstempel und Trigger jedes Eintrags protokolliert? Ohne diese Antworten bleibt Dreaming ein Audit-Risiko.

  5. Audit-Anforderungen testen

    Eine Stichprobe von Agentenentscheidungen vollständig reproduzieren und nachvollziehen, bevor produktiv geschaltet wird. Dazu gehören die kuratierten Memory-Inhalte, die Rubrik des Graders und die Werkzeuge jedes Subagenten.

  6. Lieferanten-Strategie offen halten

    Anthropic-Features sind heute Vorsprung, in 3 bis 6 Monaten erwartet die Branche äquivalente Funktionen bei OpenAI, Google und Salesforce. Architektur portabel auslegen, etwa mit Model Context Protocol als Werkzeug-Schicht.

Wer die Governance-Frage für Enterprise-Agenten ernst nimmt, sieht die neuen Features als Hebel, nicht als Selbstzweck. Ein gut definierter Outcomes-Rubric ist mehr wert als drei zusätzliche Subagenten.

Weiterführende Informationen

Häufig gestellte Fragen

Was sind die neuen Funktionen in Claude Managed Agents? +

Anthropic hat am 6. Mai 2026 vier neue Funktionen vorgestellt: Dreaming als Research Preview, Outcomes und Multiagent-Orchestrierung als Public Beta sowie Webhooks für Task-Benachrichtigungen. Dreaming kuratiert die Memory zwischen Sessions, Outcomes prüft Ergebnisse gegen Rubriken und Multiagent-Orchestrierung delegiert Aufgaben an bis zu 20 Spezialisten unter einem Lead-Agenten.

Wie funktioniert Dreaming bei Claude Agents? +

Dreaming ist ein geplanter Hintergrundprozess, der bis zu 100 vergangene Sessions und den bestehenden Memory Store analysiert. Er entfernt Duplikate, erkennt wiederkehrende Fehler und Workflows und baut eine organisierte Memory neu auf. Die Original-Transkripte bleiben unverändert. Unterstützte Modelle sind Claude Opus 4.7 und Sonnet 4.6, abgerechnet über reguläre API-Tokens.

Sind Claude Managed Agents DSGVO-konform? +

Claude Managed Agents laufen direkt nur auf Anthropic-Infrastruktur in den USA. Für DSGVO-Pflichten gibt es zwei EU-Optionen: AWS Bedrock AgentCore in der Region eu-central-1 Frankfurt mit nativer Managed Orchestration oder Google Vertex AI in europe-west3 Frankfurt, hier muss die Orchestrierung selbst gebaut werden. Beide Optionen kosten 10 bis 25 Prozent mehr als die Direktnutzung.

Wie viele Subagenten erlaubt die Multiagent-Orchestrierung? +

Ein Lead-Agent kann bis zu 20 verschiedene Subagent-Typen mit jeweils eigenem Modell, Prompt und Werkzeugset koordinieren. Insgesamt können bis zu 25 parallele Threads gleichzeitig laufen. Subagenten teilen ein gemeinsames Filesystem. Das Modell ist single-level, also keine Sub-Orchestratoren und kein rekursives Delegieren erlaubt.

Welche Risiken bringen Multiagent-Setups? +

Memory Poisoning kann persistent über Sessions hinweg Agentenverhalten beeinflussen. Cascading Failures pflanzen sich über Agentengrenzen hinweg fort. Goal Hijacking und Tool Misuse stehen in den OWASP Top 10 für agentische Anwendungen 2026. Hinzu kommt, dass ein Agent oft Zugangsdaten für mehrere Systeme gleichzeitig hält. Der EU AI Act definiert agentische Systeme bisher nicht explizit, die Verantwortung in Multi-Agent-Setups bleibt juristisch unklar.

Was bringt Outcomes konkret? +

Outcomes liefert in internen Anthropic-Tests bis zu 10 Prozentpunkte höhere Erfolgsrate. Bei docx-Generierung sind es plus 8,4 Prozent, bei pptx plus 10,1 Prozent. Der separate Grader arbeitet in eigenem Kontextfenster und vermeidet damit Reasoning Bias, den klassische Self-Evaluation oft erzeugt. Wisedocs verkürzt medizinische Dokumentenprüfungen über Outcomes um 50 Prozent bei gleichbleibender Qualität.