Aufsicht auf einen Eichenholz-Konferenztisch in einer Hamburger Beratung mit fünf nebeneinander angeordneten Vergleichskarten Mem0 Letta Zep Hermes OpenClaude im weichen Vormittagslicht

Agent Memory 2026: Mem0, Letta, Zep, Hermes und OpenClaude im Vergleich für Unternehmensentscheider

Fünf Architekturen, sieben Dimensionen, eine Entscheidungsmatrix für deutsche IT-Verantwortliche

Memory ist 2026 die Schicht, an der entschieden wird, ob ein KI-Agent ein Spielzeug oder Produktionsinfrastruktur wird. Mem0, Letta, Zep, Hermes und OpenClaude dominieren die öffentliche Debatte mit unterschiedlichen Formen, Versprechen und Preisschildern für Lock-in und Compliance. Diese Einordnung zeigt, welche Architektur welche Frage beantwortet, und was deutsche Entscheider in den nächsten drei Monaten konkret tun sollten.

Zusammenfassung

Mem0 hat im Mai 2026 mit dem Token-Efficient-Algorithmus 92,5 Prozent auf LoCoMo und 94,4 Prozent auf LongMemEval gemeldet, bei unter 7.000 Tokens pro Retrieval-Call statt 25.000 Plus bei Full-Context. Zep mit Graphiti liegt auf LongMemEval bei 63,8 Prozent versus 49,0 Prozent von Mem0 in der direkten Vergleichsmessung und reduziert Latenz um bis zu 90 Prozent, dazu als einziger SOC 2 Type 2, HIPAA und DSGVO zertifiziert. Letta verpackt MemGPT als Runtime mit drei Speicherschichten und hohem Lock-in. Hermes Agent von Nous Research, veröffentlicht im Februar 2026, kombiniert vier Memory-Schichten in einem Open-Source-Server-Agenten mit 864 Commits von 295 Contributoren zwischen v0.12 und v0.13. OpenClaude formalisiert Write-Ahead-Logging in SESSION-STATE.md als Skill-Pattern. Die richtige Wahl folgt dem Use Case, nicht dem Benchmark: Mem0 für Consumer-Apps, Letta für autonome Agenten, Zep für regulierte Branchen, Hermes für Open-Source-Server, OpenClaude für entwicklerfreundliche Plug-in-Setups.

92,5 %

Mem0 LoCoMo-Score mit Token-Efficient-Algorithmus (Mai 2026)

63,8 %

Zep LongMemEval-Score mit Graphiti-Architektur

90 %

Latenzreduktion Zep vs Full-Context in komplexen Tasks

864

Commits zwischen Hermes Agent v0.12 und v0.13 (295 Contributoren)

Warum Memory 2026 zur Entscheidungsschicht geworden ist

Bis 2024 waren große Sprachmodelle vor allem Conversation-Engines. 2026 sind sie die Steuerung autonomer Agenten, und Memory ist die Schicht, an der entschieden wird, ob ein Agent ein nützliches Werkzeug oder eine Wegwerf-Demo ist. Fünf Systeme dominieren die öffentliche Debatte mit unterschiedlichen Formen, Versprechen und Preisschildern für Lock-in , Compliance und Entwickler-Aufwand.

Mem0-Forschung wurde auf der ECAI 2025 vorgestellt und benchmarkt zehn Memory-Ansätze auf LOCOMO; das Token-Efficient-Update vom Mai 2026 hebt den Score auf 92,5 Prozent
Zep hat im Januar 2025 das arXiv-Paper zu Graphiti veröffentlicht, gefolgt von einem 90-Prozent-Latenz-Vorteil in LongMemEval-Tests
Letta hat MemGPT als Runtime-Plattform produktionsreif gemacht, mit drei Speicherschichten nach virtuellem Speicher modelliert
Hermes Agent wurde im Februar 2026 von Nous Research geöffnet und bringt vier Memory-Schichten in ein Open-Source-Server-Modell
OpenClaude formalisiert die Super-Proactive-Skill aus elf Community-Skills, mit Write-Ahead-Logging als zentraler Mechanik

Kernpunkt

Die Architektur-Entscheidung Memory ist 2026 strategisch, nicht technisch. Sie bindet Lock-in, Compliance und Adaption für Jahre, nicht für Wochen.

Taxonomie

Sieben Dimensionen für den Vergleich

Sieben Dimensionen reichen, um die fünf Systeme klar gegeneinander zu stellen. Jede Dimension bindet eine Frage, die ein Architekt beantworten muss, bevor er sich auf einen Anbieter festlegt.

Shape: SDK, Runtime, Graph-Engine, Server-Agent, Plug-in oder Produkt-Layer?
Persistence: Vector-Store, Drei-Tier-OS-Modell, temporaler Graph, Snapshot plus SQLite, Markdown-WAL oder Postgres mit pgvector?
Decision-Locus: Wer entscheidet, was gespeichert wird, der SDK-Extractor, der autonome Agent, die Graph-Engine, der ReAct-Agent oder die Anwendung selbst?
Proaktivitaet: Stoesst das System von selbst Fragen an oder nur, wenn der Mensch fragt?
User-Veto: Kann der Nutzer Capture-Pause aktivieren, einzelne Themen ausschließen, sensible Inhalte konsentieren?
Audit und Undo: Wie nachvollziehbar und reversibel ist eine Memory-Änderung?
Adaptive Ask-Rate: Lernt das System, wann es zu viel fragt?

Mem0: Memory als SDK

Mem0 ist die schmalste Variante, eine SDK, die sich an einen bestehenden Agent-Loop andocken lässt. Vier Operationen halten das Modell schlank: ADD, UPDATE, DELETE und NOOP. Das Schreib-Versprechen ist niedrig mit nur drei Call-Sites, die Performance hoch.

Mai-2026-Benchmarks: 92,5 Prozent LoCoMo, 94,4 Prozent LongMemEval, unter 7.000 Tokens pro Retrieval gegenueber 25.000 Plus bei Full-Context
Token-Efficient-Algorithmus liefert plus 29,6 Punkte bei temporalen Queries und plus 23,1 Punkte bei Multi-Hop-Reasoning
Drei parallele Scoring-Passes (semantisch, Keyword, Entity) werden im Retrieval fusioniert
Switch-Kosten zu einem anderen System: ein bis zwei Personentage, da nur drei Call-Sites
Beste Eignung: Consumer-Apps, in denen "merke dir den Nutzer" das Produkt ist

Letta und MemGPT: Memory als Runtime

Letta ist die radikalste Antwort, eine Runtime, die das Virtual-Memory-Konzept des MemGPT-Papers konsequent durchzieht. Agenten laufen in Letta, nicht mit Letta, und paginieren ihren eigenen Kontext mit Tool-Calls zwischen drei Schichten.

Was Letta gut macht

Drei-Schichten-Modell nach virtuellem Speicher: Core, Recall, Archival

REST-API-Service: Agenten laufen produktiv als Services

Git-backed Memory, Skills, Subagents, deployment über Modell-Provider hinweg

Wo Letta wehtut

Hoechster Lock-in der fünf Systeme: Migration kostet zwei bis sechs Wochen

Token-Kosten durch explizite Memory-Tool-Calls in jedem Reasoning-Schritt

Kein Veto-Modell für Endnutzer eingebaut, muss auf App-Ebene gebaut werden

Beste Eignung: autonome Agenten, bei denen Long-Horizon-Kohaerenz das Produkt ist und der Lock-in akzeptabel.

Zep und Graphiti: Memory als temporaler Wissensgraph

Zep modelliert Memory nicht als Vektoren über Dokumenten, sondern als temporalen Wissensgraphen. Jede Kante traegt zwei Zeitstempel: Event-Time, wann die Tatsache in der Welt galt, und Ingestion-Time, wann Zep davon erfahren hat. Das macht temporales Reasoning zur Eigenschaft erster Klasse statt zur Erweiterung.

LongMemEval-Score 63,8 Prozent gegenueber 49,0 Prozent von Mem0 in der direkten Vergleichsmessung
Bis zu 90 Prozent geringere Latenz in komplexen temporalen Reasoning-Tasks
SOC 2 Type 2, HIPAA und DSGVO zertifiziert, einziger der fünf mit vollem Compliance-Stack
Validitaetsfenster pro Fakt: nicht "diese Tatsache existiert", sondern "diese Tatsache galt von wann bis wann"
Beste Eignung: Customer Support, Sales, Health, Legal, Agenten mit strikten Audit-Anforderungen

Hermes Agent: Memory als Open-Source-Server

Hermes Agent von Nous Research, veröffentlicht im Februar 2026, ist der erste produktiv einsetzbare Open-Source-Server-Agent mit Selbstverbesserung. Vier Memory-Schichten, alle in Plain-Text-Files, alle versionierbar mit Git.

Schicht 1: Snapshot

MEMORY.md und USER.md , etwa 3.500 Zeichen, in jeden Turn eingespritzt. Bounded, immer im Kontext.
Schicht 2: Historie

SQLite mit FTS5, jede Konversation durchsuchbar. Kein Vektor-Index, dafuer lexikalisch präzise.
Schicht 3: Skills

SKILL.md -Dateien, nach komplexen Tasks vom Agenten geschrieben. Wiederverwendbare Loesungsmuster.
Schicht 4: Refinement

Neue Evidenz aktualisiert alte Skills. Das macht den Agenten über Zeit besser, ohne Retraining.

864 Commits zwischen v0.12 und v0.13, 295 Contributoren. Das ist eine Entwickler-Community, kein Vendor-Update. Beste Eignung: eigene Server, technische Teams, Workflows mit Wechselbedarf. Unsere ausfuehrliche Einordnung steht im Hermes-Artikel: Hermes Agent 2026: Der erste produktive Open-Source-KI-Agent .

OpenClaude: Memory als Plug-in-Skill

OpenClaude ist das Community-Framework um Claude-basierte Agenten. Die Super-Proactive-Skill bündelt elf Community-Skills zu einer einheitlichen Architektur, die proaktiv handelt, Hintergrund-Tasks ausführt und sich über Zeit verfeinert.

Write-Ahead-Logging-Mechanik: jede Entscheidung, Korrektur oder neue Tatsache landet als Zeitstempel-Eintrag in SESSION-STATE.md , bevor der Agent weiterarbeitet
Hintergrund-Checks ohne explizite Prompts via Scheduler
Persistenz ueberlebt das Konversations-Fenster
Markdown-zentriert: portabel, entwicklerfreundlich, leicht zu auditieren
Beste Eignung: entwicklerfreundliche Setups, in denen Markdown-Dateien als Speicher okay sind und Mehrnutzer-Isolation nicht zentral ist

Synthese

Die Vergleichsmatrix

Eine kompakte Synthese der sieben Dimensionen über alle fünf Systeme. Die einzige Tabelle, die deutsche Entscheider 2026 wirklich brauchen, um eine erste Auswahl zu treffen.

Dimension	Mem0	Letta	Zep	Hermes	OpenClaude
Shape	SDK	Runtime	Graph-Engine	Server-Agent	Plug-in-Skill
Persistenz	Vector-Store	Drei-Tier-OS	Temporaler Graph	Snapshot + SQLite + Skills	Markdown-WAL
Decision-Locus	SDK-Extractor	Agent autonom	Graph-Engine	Agent ReAct	Agent + Cron
Proaktiv?	nein	via Autonomie	nein	via Skills	ja (Skill)
User-Veto	App-Ebene	App-Ebene	Enterprise ACL	nicht eingebaut	nicht eingebaut
Audit / Undo	begrenzt	Runtime-Traces	Graph-Historie	Git-fähige Files	WAL-Journal
DSGVO/SOC 2	selbst	selbst	zertifiziert	selbst	selbst

Deutsche und EU-Perspektive

Vier Compliance-Themen ueberlagern jede Entscheidung in deutschen Unternehmen. Sie verschieben den Punkt der Wahl von der Performance-Tabelle auf den Anbieter-Stack.

Compliance-Beauftragter in einer Frankfurter Risk-Abteilung prüft eine zweispaltige DSGVO-Statusliste für Agent-Memory-Plattformen am Fenster — Zep ist 2026 der einzige der fünf Anbieter mit vollumfaenglicher DSGVO-, SOC-2-Type-2- und HIPAA-Zertifizierung.

DSGVO-Konformität: Zep ist als einziger der fünf vollumfaenglich zertifiziert; Mem0, Letta, Hermes und OpenClaude erfordern eigene Compliance-Arbeit
Datenresidenz: Lokale Modelle und EU-konforme Inferenz-Backends sind für alle fünf möglich, kosten aber Tempo und Geld
EU AI Act : Sobald Memory Personenbezug enthält oder Entscheidungen unterstützt, greifen Transparenz- und Dokumentationspflichten unabhaengig vom Anbieter
Lock-in-Risiko: Letta ist das stickigste (Runtime), Mem0 das duennste (SDK), Zep das compliance-stabilste (managed enterprise), Hermes das offenste (selbst gehostet), OpenClaude das skill-zentrierteste
Wer bereits Erfahrungen mit dem Karpathy-LLM-Wiki-Pattern sammelt, kennt die Disziplin der Schicht-Trennung, die hier in der Architektur-Wahl wiederkehrt
Der KI-Agenten-Wildwuchs wird durch ungeplante Memory-Entscheidungen verschärft, weil jede Abteilung sich ihren eigenen Anbieter aussucht

Umsetzung

Was Unternehmen jetzt tun sollten

Sechs konkrete Schritte für die nächsten drei Monate. Die Reihenfolge zählt.

Enterprise-Architektin skizziert an einem Whiteboard in einer Stuttgarter Software-Beratung einen sechsstufigen Playbook für die Memory-Auswahl — Sechs Schritte vom Use Case zur Memory-Entscheidung, statt sich vom Benchmark treiben zu lassen.

Use Case zuerst

Wissensbasis, Coaching-Agent, Customer-Support-Memory oder Coding-Assistent? Ohne klaren Use Case ist jeder Vergleich unbrauchbar.
Personal vs Enterprise

Personal-Setup (Mem0, Hermes) oder Enterprise-Plattform (Zep, Letta)? Die Trennung entscheidet über Aufwand und Lock-in.
Compliance mitskalieren

Je mehr Personenbezug im Memory, desto strenger die Audit-Anforderungen. Plant die Stack-Wahl mit der Datenklassifikation, nicht danach.
Zwei Systeme parallel pilotieren

In einem klar abgegrenzten Pilotprojekt mindestens zwei Systeme nebeneinander testen. Benchmark-Zahlen ersetzen keinen eigenen Pilot.
Reversibilitaet einbauen

Jede Memory-Operation muss reproduzierbar undoable sein. Sonst gibt es kein Vertrauen, weder beim Nutzer noch beim Audit.
Backend frueh entscheiden

EU-konforme Inferenz oder akzeptiertes Restrisiko bei US-Anbietern. Jede Variante hat einen Preis, jede ist begruendbar, aber nicht alle sind austauschbar.

Faustregel

Wer 2026 Memory-Entscheidungen trifft, sollte den Use Case dreimal lauter formulieren als die Benchmark-Tabelle. Die Architektur folgt der Aufgabe, nicht der Bestenliste.

Herausforderungen und Risiken

Fünf Risiken stechen heraus, die über alle Systeme hinweg gelten.

Halluzinations-Kompoundierung: Falsche Fakten im Memory werden von späteren Schritten als gegeben behandelt und in Synthese-Eintraegen zementiert.
Token-Kosten skalieren mit der Memory-Tiefe: Letta ist hier am teuersten, Mem0 am sparsamsten. Bei produktivem Einsatz wird das ein eigener Haushaltsposten.
Vendor-Lock-in: Besonders bei Runtime-Modellen wie Letta. Der Wechsel kostet Wochen, nicht Tage.
Privacy-Drift: Memory wird oft tiefer als der Nutzer erwartet. Ohne explizites Veto-Modell entsteht ein Vertrauensbruch.
Halbwertszeit der Wahrheit: In schnellen Domänen veralten Memory-Eintraege frueher als die Quellen; nicht jedes System erkennt das.

Weiterführende Informationen

Mem0: State of AI Agent Memory 2026 (Benchmarks, Architecture, Production Gaps) Mem0: AI Memory Benchmarks 2026 (Token-Efficient-Algorithmus) Zep: A Temporal Knowledge Graph Architecture for Agent Memory (arXiv) WeavAI Review (Mai 2026): Zep als Temporal-Memory-King Letta Docs: Research Background und Drei-Schichten-Modell TokenMix: Mem0 vs Letta vs MemGPT 2026 MarkTechPost: Nous Research Releases Hermes Agent (Feb 2026) DEV Community: Understanding the Super Proactive Skill in OpenClaude

Häufig gestellte Fragen

Welches Agent-Memory-System ist 2026 das beste? +

Keines für alle Faelle. Mem0 führt 2026 die Benchmarks mit 92,5 Prozent LoCoMo und 94,4 Prozent LongMemEval, hat aber kein Audit-Modell. Zep ist der einzige der fünf mit SOC 2 Type 2, HIPAA und DSGVO-Zertifizierung. Letta hat den hoechsten Lock-in als Runtime. Hermes ist Open-Source-Server-Software. OpenClaude ist Markdown-zentriert. Die Wahl hängt vom Use Case ab, nicht vom Benchmark.

Was unterscheidet Mem0 von RAG? +

RAG holt bei jeder Frage Chunks aus einem Vektorindex und baut eine Antwort. Mem0 extrahiert beim Schreiben Fakten mit vier Operationen, ADD, UPDATE, DELETE und NOOP, und speichert sie als persistente Memory-Eintraege. Mem0s Token-Efficient-Algorithmus liegt unter 7.000 Tokens pro Retrieval gegenueber 25.000 Plus bei Full-Context.

Welches System eignet sich für DSGVO-konforme Setups? +

Zep ist als einziger der fünf vollumfaenglich SOC 2 Type 2, HIPAA und DSGVO-zertifiziert. Mem0, Letta, Hermes und OpenClaude erfordern eigene Compliance-Arbeit. Wer auf lokale Inferenz und europäische Backends setzt, kann jedes System DSGVO-konform betreiben, traegt aber den Aufwand selbst.

Wie hoch ist der Lock-in bei Letta? +

Hoch. Letta ist keine SDK, sondern eine Runtime. Agenten laufen in Letta, nicht mit Letta. Vectorize und TokenMix nennen Framework-Lock-in als häufigsten Wechselgrund. Ein Migration-Aufwand von zwei bis sechs Wochen ist die Norm. Mem0 hat dagegen nur drei Call-Sites und ist mit zwei Personentagen wechselbar.

Was ist Graphiti? +

Graphiti ist die Graph-Engine hinter Zep. Jede Kante traegt zwei Zeitstempel: Event-Time, wann die Tatsache in der Welt galt, und Ingestion-Time, wann das System davon erfahren hat. Das macht temporales Reasoning zur Eigenschaft erster Klasse statt zur Erweiterung. In LongMemEval-Tests erreicht Zep 63,8 Prozent versus 49,0 Prozent bei Mem0 in der direkten Vergleichsmessung.

Welche Rolle spielt Hermes Agent in der Memory-Landschaft? +

Hermes Agent von Nous Research wurde im Februar 2026 veröffentlicht und kombiniert vier Memory-Schichten in einem Open-Source-Server-Agenten: MEMORY.md-Snapshot von rund 3.500 Zeichen pro Turn, SQLite mit FTS5 für alle Konversationen, SKILL.md-Dateien nach komplexen Tasks und eine Refinement-Schicht. Zwischen v0.12 und v0.13 sind 864 Commits von 295 Contributoren eingegangen. Hermes ist die Wahl für technische Teams, die einen eigenen Server für ihre Agenten haben wollen.

Agent Memory 2026: Mem0, Letta, Zep, Hermes und OpenClaude im Vergleich für Unternehmensentscheider

Warum Memory 2026 zur Entscheidungsschicht geworden ist

Sieben Dimensionen für den Vergleich

Mem0: Memory als SDK

Letta und MemGPT: Memory als Runtime

Zep und Graphiti: Memory als temporaler Wissensgraph

Hermes Agent: Memory als Open-Source-Server

Schicht 1: Snapshot

Schicht 2: Historie

Schicht 3: Skills

Schicht 4: Refinement

OpenClaude: Memory als Plug-in-Skill

Die Vergleichsmatrix

Deutsche und EU-Perspektive

Was Unternehmen jetzt tun sollten

Use Case zuerst

Personal vs Enterprise

Compliance mitskalieren

Zwei Systeme parallel pilotieren

Reversibilitaet einbauen

Backend frueh entscheiden

Herausforderungen und Risiken

Weiterführende Informationen

Häufig gestellte Fragen