Aufsicht auf einen Eichenholz-Konferenztisch in einer Hamburger Beratung mit fünf nebeneinander angeordneten Vergleichskarten Mem0 Letta Zep Hermes OpenClaude im weichen Vormittagslicht

Agent Memory 2026: Mem0, Letta, Zep, Hermes und OpenClaude im Vergleich für Unternehmensentscheider

Fünf Architekturen, sieben Dimensionen, eine Entscheidungsmatrix für deutsche IT-Verantwortliche

Memory ist 2026 die Schicht, an der entschieden wird, ob ein KI-Agent ein Spielzeug oder Produktionsinfrastruktur wird. Mem0, Letta, Zep, Hermes und OpenClaude dominieren die öffentliche Debatte mit unterschiedlichen Formen, Versprechen und Preisschildern für Lock-in und Compliance. Diese Einordnung zeigt, welche Architektur welche Frage beantwortet, und was deutsche Entscheider in den nächsten drei Monaten konkret tun sollten.

Zusammenfassung

Mem0 hat im Mai 2026 mit dem Token-Efficient-Algorithmus 92,5 Prozent auf LoCoMo und 94,4 Prozent auf LongMemEval gemeldet, bei unter 7.000 Tokens pro Retrieval-Call statt 25.000 Plus bei Full-Context. Zep mit Graphiti liegt auf LongMemEval bei 63,8 Prozent versus 49,0 Prozent von Mem0 in der direkten Vergleichsmessung und reduziert Latenz um bis zu 90 Prozent, dazu als einziger SOC 2 Type 2, HIPAA und DSGVO zertifiziert. Letta verpackt MemGPT als Runtime mit drei Speicherschichten und hohem Lock-in. Hermes Agent von Nous Research, veröffentlicht im Februar 2026, kombiniert vier Memory-Schichten in einem Open-Source-Server-Agenten mit 864 Commits von 295 Contributoren zwischen v0.12 und v0.13. OpenClaude formalisiert Write-Ahead-Logging in SESSION-STATE.md als Skill-Pattern. Die richtige Wahl folgt dem Use Case, nicht dem Benchmark: Mem0 für Consumer-Apps, Letta für autonome Agenten, Zep für regulierte Branchen, Hermes für Open-Source-Server, OpenClaude für entwicklerfreundliche Plug-in-Setups.

92,5 %
Mem0 LoCoMo-Score mit Token-Efficient-Algorithmus (Mai 2026)
63,8 %
Zep LongMemEval-Score mit Graphiti-Architektur
90 %
Latenzreduktion Zep vs Full-Context in komplexen Tasks
864
Commits zwischen Hermes Agent v0.12 und v0.13 (295 Contributoren)

Warum Memory 2026 zur Entscheidungsschicht geworden ist

Bis 2024 waren große Sprachmodelle vor allem Conversation-Engines. 2026 sind sie die Steuerung autonomer Agenten, und Memory ist die Schicht, an der entschieden wird, ob ein Agent ein nützliches Werkzeug oder eine Wegwerf-Demo ist. Fünf Systeme dominieren die öffentliche Debatte mit unterschiedlichen Formen, Versprechen und Preisschildern für Lock-in, Compliance und Entwickler-Aufwand.

  • Mem0-Forschung wurde auf der ECAI 2025 vorgestellt und benchmarkt zehn Memory-Ansätze auf LOCOMO; das Token-Efficient-Update vom Mai 2026 hebt den Score auf 92,5 Prozent
  • Zep hat im Januar 2025 das arXiv-Paper zu Graphiti veröffentlicht, gefolgt von einem 90-Prozent-Latenz-Vorteil in LongMemEval-Tests
  • Letta hat MemGPT als Runtime-Plattform produktionsreif gemacht, mit drei Speicherschichten nach virtuellem Speicher modelliert
  • Hermes Agent wurde im Februar 2026 von Nous Research geöffnet und bringt vier Memory-Schichten in ein Open-Source-Server-Modell
  • OpenClaude formalisiert die Super-Proactive-Skill aus elf Community-Skills, mit Write-Ahead-Logging als zentraler Mechanik
Kernpunkt

Die Architektur-Entscheidung Memory ist 2026 strategisch, nicht technisch. Sie bindet Lock-in, Compliance und Adaption für Jahre, nicht für Wochen.

Taxonomie

Sieben Dimensionen für den Vergleich

Sieben Dimensionen reichen, um die fünf Systeme klar gegeneinander zu stellen. Jede Dimension bindet eine Frage, die ein Architekt beantworten muss, bevor er sich auf einen Anbieter festlegt.

  • Shape: SDK, Runtime, Graph-Engine, Server-Agent, Plug-in oder Produkt-Layer?
  • Persistence: Vector-Store, Drei-Tier-OS-Modell, temporaler Graph, Snapshot plus SQLite, Markdown-WAL oder Postgres mit pgvector?
  • Decision-Locus: Wer entscheidet, was gespeichert wird, der SDK-Extractor, der autonome Agent, die Graph-Engine, der ReAct-Agent oder die Anwendung selbst?
  • Proaktivitaet: Stoesst das System von selbst Fragen an oder nur, wenn der Mensch fragt?
  • User-Veto: Kann der Nutzer Capture-Pause aktivieren, einzelne Themen ausschließen, sensible Inhalte konsentieren?
  • Audit und Undo: Wie nachvollziehbar und reversibel ist eine Memory-Änderung?
  • Adaptive Ask-Rate: Lernt das System, wann es zu viel fragt?

Mem0: Memory als SDK

Mem0 ist die schmalste Variante, eine SDK, die sich an einen bestehenden Agent-Loop andocken lässt. Vier Operationen halten das Modell schlank: ADD, UPDATE, DELETE und NOOP. Das Schreib-Versprechen ist niedrig mit nur drei Call-Sites, die Performance hoch.

  • Mai-2026-Benchmarks: 92,5 Prozent LoCoMo, 94,4 Prozent LongMemEval, unter 7.000 Tokens pro Retrieval gegenueber 25.000 Plus bei Full-Context
  • Token-Efficient-Algorithmus liefert plus 29,6 Punkte bei temporalen Queries und plus 23,1 Punkte bei Multi-Hop-Reasoning
  • Drei parallele Scoring-Passes (semantisch, Keyword, Entity) werden im Retrieval fusioniert
  • Switch-Kosten zu einem anderen System: ein bis zwei Personentage, da nur drei Call-Sites
  • Beste Eignung: Consumer-Apps, in denen "merke dir den Nutzer" das Produkt ist

Letta und MemGPT: Memory als Runtime

Letta ist die radikalste Antwort, eine Runtime, die das Virtual-Memory-Konzept des MemGPT-Papers konsequent durchzieht. Agenten laufen in Letta, nicht mit Letta, und paginieren ihren eigenen Kontext mit Tool-Calls zwischen drei Schichten.

Was Letta gut macht
Drei-Schichten-Modell nach virtuellem Speicher: Core, Recall, Archival
REST-API-Service: Agenten laufen produktiv als Services
Git-backed Memory, Skills, Subagents, deployment über Modell-Provider hinweg
Wo Letta wehtut
Hoechster Lock-in der fünf Systeme: Migration kostet zwei bis sechs Wochen
Token-Kosten durch explizite Memory-Tool-Calls in jedem Reasoning-Schritt
Kein Veto-Modell für Endnutzer eingebaut, muss auf App-Ebene gebaut werden

Beste Eignung: autonome Agenten, bei denen Long-Horizon-Kohaerenz das Produkt ist und der Lock-in akzeptabel.

Zep und Graphiti: Memory als temporaler Wissensgraph

Zep modelliert Memory nicht als Vektoren über Dokumenten, sondern als temporalen Wissensgraphen. Jede Kante traegt zwei Zeitstempel: Event-Time, wann die Tatsache in der Welt galt, und Ingestion-Time, wann Zep davon erfahren hat. Das macht temporales Reasoning zur Eigenschaft erster Klasse statt zur Erweiterung.

  • LongMemEval-Score 63,8 Prozent gegenueber 49,0 Prozent von Mem0 in der direkten Vergleichsmessung
  • Bis zu 90 Prozent geringere Latenz in komplexen temporalen Reasoning-Tasks
  • SOC 2 Type 2, HIPAA und DSGVO zertifiziert, einziger der fünf mit vollem Compliance-Stack
  • Validitaetsfenster pro Fakt: nicht "diese Tatsache existiert", sondern "diese Tatsache galt von wann bis wann"
  • Beste Eignung: Customer Support, Sales, Health, Legal, Agenten mit strikten Audit-Anforderungen

Hermes Agent: Memory als Open-Source-Server

Hermes Agent von Nous Research, veröffentlicht im Februar 2026, ist der erste produktiv einsetzbare Open-Source-Server-Agent mit Selbstverbesserung. Vier Memory-Schichten, alle in Plain-Text-Files, alle versionierbar mit Git.

  1. Schicht 1: Snapshot

    MEMORY.md und USER.md , etwa 3.500 Zeichen, in jeden Turn eingespritzt. Bounded, immer im Kontext.

  2. Schicht 2: Historie

    SQLite mit FTS5, jede Konversation durchsuchbar. Kein Vektor-Index, dafuer lexikalisch präzise.

  3. Schicht 3: Skills

    SKILL.md -Dateien, nach komplexen Tasks vom Agenten geschrieben. Wiederverwendbare Loesungsmuster.

  4. Schicht 4: Refinement

    Neue Evidenz aktualisiert alte Skills. Das macht den Agenten über Zeit besser, ohne Retraining.

864 Commits zwischen v0.12 und v0.13, 295 Contributoren. Das ist eine Entwickler-Community, kein Vendor-Update. Beste Eignung: eigene Server, technische Teams, Workflows mit Wechselbedarf. Unsere ausfuehrliche Einordnung steht im Hermes-Artikel: Hermes Agent 2026: Der erste produktive Open-Source-KI-Agent .

OpenClaude: Memory als Plug-in-Skill

OpenClaude ist das Community-Framework um Claude-basierte Agenten. Die Super-Proactive-Skill bündelt elf Community-Skills zu einer einheitlichen Architektur, die proaktiv handelt, Hintergrund-Tasks ausführt und sich über Zeit verfeinert.

  • Write-Ahead-Logging-Mechanik: jede Entscheidung, Korrektur oder neue Tatsache landet als Zeitstempel-Eintrag in SESSION-STATE.md , bevor der Agent weiterarbeitet
  • Hintergrund-Checks ohne explizite Prompts via Scheduler
  • Persistenz ueberlebt das Konversations-Fenster
  • Markdown-zentriert: portabel, entwicklerfreundlich, leicht zu auditieren
  • Beste Eignung: entwicklerfreundliche Setups, in denen Markdown-Dateien als Speicher okay sind und Mehrnutzer-Isolation nicht zentral ist
Synthese

Die Vergleichsmatrix

Eine kompakte Synthese der sieben Dimensionen über alle fünf Systeme. Die einzige Tabelle, die deutsche Entscheider 2026 wirklich brauchen, um eine erste Auswahl zu treffen.

Dimension Mem0 Letta Zep Hermes OpenClaude
Shape SDK Runtime Graph-Engine Server-Agent Plug-in-Skill
Persistenz Vector-Store Drei-Tier-OS Temporaler Graph Snapshot + SQLite + Skills Markdown-WAL
Decision-Locus SDK-Extractor Agent autonom Graph-Engine Agent ReAct Agent + Cron
Proaktiv? nein via Autonomie nein via Skills ja (Skill)
User-Veto App-Ebene App-Ebene Enterprise ACL nicht eingebaut nicht eingebaut
Audit / Undo begrenzt Runtime-Traces Graph-Historie Git-fähige Files WAL-Journal
DSGVO/SOC 2 selbst selbst zertifiziert selbst selbst

Deutsche und EU-Perspektive

Vier Compliance-Themen ueberlagern jede Entscheidung in deutschen Unternehmen. Sie verschieben den Punkt der Wahl von der Performance-Tabelle auf den Anbieter-Stack.

Compliance-Beauftragter in einer Frankfurter Risk-Abteilung prüft eine zweispaltige DSGVO-Statusliste für Agent-Memory-Plattformen am Fenster
Zep ist 2026 der einzige der fünf Anbieter mit vollumfaenglicher DSGVO-, SOC-2-Type-2- und HIPAA-Zertifizierung.
  • DSGVO-Konformität: Zep ist als einziger der fünf vollumfaenglich zertifiziert; Mem0, Letta, Hermes und OpenClaude erfordern eigene Compliance-Arbeit
  • Datenresidenz: Lokale Modelle und EU-konforme Inferenz-Backends sind für alle fünf möglich, kosten aber Tempo und Geld
  • EU AI Act: Sobald Memory Personenbezug enthält oder Entscheidungen unterstützt, greifen Transparenz- und Dokumentationspflichten unabhaengig vom Anbieter
  • Lock-in-Risiko: Letta ist das stickigste (Runtime), Mem0 das duennste (SDK), Zep das compliance-stabilste (managed enterprise), Hermes das offenste (selbst gehostet), OpenClaude das skill-zentrierteste
  • Wer bereits Erfahrungen mit dem Karpathy-LLM-Wiki-Pattern sammelt, kennt die Disziplin der Schicht-Trennung, die hier in der Architektur-Wahl wiederkehrt
  • Der KI-Agenten-Wildwuchs wird durch ungeplante Memory-Entscheidungen verschärft, weil jede Abteilung sich ihren eigenen Anbieter aussucht
Umsetzung

Was Unternehmen jetzt tun sollten

Sechs konkrete Schritte für die nächsten drei Monate. Die Reihenfolge zählt.

Enterprise-Architektin skizziert an einem Whiteboard in einer Stuttgarter Software-Beratung einen sechsstufigen Playbook für die Memory-Auswahl
Sechs Schritte vom Use Case zur Memory-Entscheidung, statt sich vom Benchmark treiben zu lassen.
  1. Use Case zuerst

    Wissensbasis, Coaching-Agent, Customer-Support-Memory oder Coding-Assistent? Ohne klaren Use Case ist jeder Vergleich unbrauchbar.

  2. Personal vs Enterprise

    Personal-Setup (Mem0, Hermes) oder Enterprise-Plattform (Zep, Letta)? Die Trennung entscheidet über Aufwand und Lock-in.

  3. Compliance mitskalieren

    Je mehr Personenbezug im Memory, desto strenger die Audit-Anforderungen. Plant die Stack-Wahl mit der Datenklassifikation, nicht danach.

  4. Zwei Systeme parallel pilotieren

    In einem klar abgegrenzten Pilotprojekt mindestens zwei Systeme nebeneinander testen. Benchmark-Zahlen ersetzen keinen eigenen Pilot.

  5. Reversibilitaet einbauen

    Jede Memory-Operation muss reproduzierbar undoable sein. Sonst gibt es kein Vertrauen, weder beim Nutzer noch beim Audit.

  6. Backend frueh entscheiden

    EU-konforme Inferenz oder akzeptiertes Restrisiko bei US-Anbietern. Jede Variante hat einen Preis, jede ist begruendbar, aber nicht alle sind austauschbar.

Faustregel

Wer 2026 Memory-Entscheidungen trifft, sollte den Use Case dreimal lauter formulieren als die Benchmark-Tabelle. Die Architektur folgt der Aufgabe, nicht der Bestenliste.

Herausforderungen und Risiken

Fünf Risiken stechen heraus, die über alle Systeme hinweg gelten.

  • Halluzinations-Kompoundierung: Falsche Fakten im Memory werden von späteren Schritten als gegeben behandelt und in Synthese-Eintraegen zementiert.
  • Token-Kosten skalieren mit der Memory-Tiefe: Letta ist hier am teuersten, Mem0 am sparsamsten. Bei produktivem Einsatz wird das ein eigener Haushaltsposten.
  • Vendor-Lock-in: Besonders bei Runtime-Modellen wie Letta. Der Wechsel kostet Wochen, nicht Tage.
  • Privacy-Drift: Memory wird oft tiefer als der Nutzer erwartet. Ohne explizites Veto-Modell entsteht ein Vertrauensbruch.
  • Halbwertszeit der Wahrheit: In schnellen Domänen veralten Memory-Eintraege frueher als die Quellen; nicht jedes System erkennt das.

Weiterführende Informationen

Häufig gestellte Fragen

Welches Agent-Memory-System ist 2026 das beste? +

Keines für alle Faelle. Mem0 führt 2026 die Benchmarks mit 92,5 Prozent LoCoMo und 94,4 Prozent LongMemEval, hat aber kein Audit-Modell. Zep ist der einzige der fünf mit SOC 2 Type 2, HIPAA und DSGVO-Zertifizierung. Letta hat den hoechsten Lock-in als Runtime. Hermes ist Open-Source-Server-Software. OpenClaude ist Markdown-zentriert. Die Wahl hängt vom Use Case ab, nicht vom Benchmark.

Was unterscheidet Mem0 von RAG? +

RAG holt bei jeder Frage Chunks aus einem Vektorindex und baut eine Antwort. Mem0 extrahiert beim Schreiben Fakten mit vier Operationen, ADD, UPDATE, DELETE und NOOP, und speichert sie als persistente Memory-Eintraege. Mem0s Token-Efficient-Algorithmus liegt unter 7.000 Tokens pro Retrieval gegenueber 25.000 Plus bei Full-Context.

Welches System eignet sich für DSGVO-konforme Setups? +

Zep ist als einziger der fünf vollumfaenglich SOC 2 Type 2, HIPAA und DSGVO-zertifiziert. Mem0, Letta, Hermes und OpenClaude erfordern eigene Compliance-Arbeit. Wer auf lokale Inferenz und europäische Backends setzt, kann jedes System DSGVO-konform betreiben, traegt aber den Aufwand selbst.

Wie hoch ist der Lock-in bei Letta? +

Hoch. Letta ist keine SDK, sondern eine Runtime. Agenten laufen in Letta, nicht mit Letta. Vectorize und TokenMix nennen Framework-Lock-in als häufigsten Wechselgrund. Ein Migration-Aufwand von zwei bis sechs Wochen ist die Norm. Mem0 hat dagegen nur drei Call-Sites und ist mit zwei Personentagen wechselbar.

Was ist Graphiti? +

Graphiti ist die Graph-Engine hinter Zep. Jede Kante traegt zwei Zeitstempel: Event-Time, wann die Tatsache in der Welt galt, und Ingestion-Time, wann das System davon erfahren hat. Das macht temporales Reasoning zur Eigenschaft erster Klasse statt zur Erweiterung. In LongMemEval-Tests erreicht Zep 63,8 Prozent versus 49,0 Prozent bei Mem0 in der direkten Vergleichsmessung.

Welche Rolle spielt Hermes Agent in der Memory-Landschaft? +

Hermes Agent von Nous Research wurde im Februar 2026 veröffentlicht und kombiniert vier Memory-Schichten in einem Open-Source-Server-Agenten: MEMORY.md-Snapshot von rund 3.500 Zeichen pro Turn, SQLite mit FTS5 für alle Konversationen, SKILL.md-Dateien nach komplexen Tasks und eine Refinement-Schicht. Zwischen v0.12 und v0.13 sind 864 Commits von 295 Contributoren eingegangen. Hermes ist die Wahl für technische Teams, die einen eigenen Server für ihre Agenten haben wollen.