Agent Memory 2026: Mem0, Letta, Zep, Hermes und OpenClaude im Vergleich für Unternehmensentscheider
Memory ist 2026 die Schicht, an der entschieden wird, ob ein KI-Agent ein Spielzeug oder Produktionsinfrastruktur wird. Mem0, Letta, Zep, Hermes und OpenClaude dominieren die öffentliche Debatte mit unterschiedlichen Formen, Versprechen und Preisschildern für Lock-in und Compliance. Diese Einordnung zeigt, welche Architektur welche Frage beantwortet, und was deutsche Entscheider in den nächsten drei Monaten konkret tun sollten.
Mem0 hat im Mai 2026 mit dem Token-Efficient-Algorithmus 92,5 Prozent auf LoCoMo und 94,4 Prozent auf LongMemEval gemeldet, bei unter 7.000 Tokens pro Retrieval-Call statt 25.000 Plus bei Full-Context. Zep mit Graphiti liegt auf LongMemEval bei 63,8 Prozent versus 49,0 Prozent von Mem0 in der direkten Vergleichsmessung und reduziert Latenz um bis zu 90 Prozent, dazu als einziger SOC 2 Type 2, HIPAA und DSGVO zertifiziert. Letta verpackt MemGPT als Runtime mit drei Speicherschichten und hohem Lock-in. Hermes Agent von Nous Research, veröffentlicht im Februar 2026, kombiniert vier Memory-Schichten in einem Open-Source-Server-Agenten mit 864 Commits von 295 Contributoren zwischen v0.12 und v0.13. OpenClaude formalisiert Write-Ahead-Logging in SESSION-STATE.md als Skill-Pattern. Die richtige Wahl folgt dem Use Case, nicht dem Benchmark: Mem0 für Consumer-Apps, Letta für autonome Agenten, Zep für regulierte Branchen, Hermes für Open-Source-Server, OpenClaude für entwicklerfreundliche Plug-in-Setups.
Warum Memory 2026 zur Entscheidungsschicht geworden ist
Bis 2024 waren große Sprachmodelle vor allem Conversation-Engines. 2026 sind sie die Steuerung autonomer Agenten, und Memory ist die Schicht, an der entschieden wird, ob ein Agent ein nützliches Werkzeug oder eine Wegwerf-Demo ist. Fünf Systeme dominieren die öffentliche Debatte mit unterschiedlichen Formen, Versprechen und Preisschildern für Lock-in, Compliance und Entwickler-Aufwand.
- Mem0-Forschung wurde auf der ECAI 2025 vorgestellt und benchmarkt zehn Memory-Ansätze auf LOCOMO; das Token-Efficient-Update vom Mai 2026 hebt den Score auf 92,5 Prozent
- Zep hat im Januar 2025 das arXiv-Paper zu Graphiti veröffentlicht, gefolgt von einem 90-Prozent-Latenz-Vorteil in LongMemEval-Tests
- Letta hat MemGPT als Runtime-Plattform produktionsreif gemacht, mit drei Speicherschichten nach virtuellem Speicher modelliert
- Hermes Agent wurde im Februar 2026 von Nous Research geöffnet und bringt vier Memory-Schichten in ein Open-Source-Server-Modell
- OpenClaude formalisiert die Super-Proactive-Skill aus elf Community-Skills, mit Write-Ahead-Logging als zentraler Mechanik
Die Architektur-Entscheidung Memory ist 2026 strategisch, nicht technisch. Sie bindet Lock-in, Compliance und Adaption für Jahre, nicht für Wochen.
Sieben Dimensionen für den Vergleich
Sieben Dimensionen reichen, um die fünf Systeme klar gegeneinander zu stellen. Jede Dimension bindet eine Frage, die ein Architekt beantworten muss, bevor er sich auf einen Anbieter festlegt.
- Shape: SDK, Runtime, Graph-Engine, Server-Agent, Plug-in oder Produkt-Layer?
- Persistence: Vector-Store, Drei-Tier-OS-Modell, temporaler Graph, Snapshot plus SQLite, Markdown-WAL oder Postgres mit pgvector?
- Decision-Locus: Wer entscheidet, was gespeichert wird, der SDK-Extractor, der autonome Agent, die Graph-Engine, der ReAct-Agent oder die Anwendung selbst?
- Proaktivitaet: Stoesst das System von selbst Fragen an oder nur, wenn der Mensch fragt?
- User-Veto: Kann der Nutzer Capture-Pause aktivieren, einzelne Themen ausschließen, sensible Inhalte konsentieren?
- Audit und Undo: Wie nachvollziehbar und reversibel ist eine Memory-Änderung?
- Adaptive Ask-Rate: Lernt das System, wann es zu viel fragt?
Mem0: Memory als SDK
Mem0 ist die schmalste Variante, eine SDK, die sich an einen bestehenden Agent-Loop andocken lässt. Vier Operationen halten das Modell schlank: ADD, UPDATE, DELETE und NOOP. Das Schreib-Versprechen ist niedrig mit nur drei Call-Sites, die Performance hoch.
- Mai-2026-Benchmarks: 92,5 Prozent LoCoMo, 94,4 Prozent LongMemEval, unter 7.000 Tokens pro Retrieval gegenueber 25.000 Plus bei Full-Context
- Token-Efficient-Algorithmus liefert plus 29,6 Punkte bei temporalen Queries und plus 23,1 Punkte bei Multi-Hop-Reasoning
- Drei parallele Scoring-Passes (semantisch, Keyword, Entity) werden im Retrieval fusioniert
- Switch-Kosten zu einem anderen System: ein bis zwei Personentage, da nur drei Call-Sites
- Beste Eignung: Consumer-Apps, in denen "merke dir den Nutzer" das Produkt ist
Letta und MemGPT: Memory als Runtime
Letta ist die radikalste Antwort, eine Runtime, die das Virtual-Memory-Konzept des MemGPT-Papers konsequent durchzieht. Agenten laufen in Letta, nicht mit Letta, und paginieren ihren eigenen Kontext mit Tool-Calls zwischen drei Schichten.
Beste Eignung: autonome Agenten, bei denen Long-Horizon-Kohaerenz das Produkt ist und der Lock-in akzeptabel.
Zep und Graphiti: Memory als temporaler Wissensgraph
Zep modelliert Memory nicht als Vektoren über Dokumenten, sondern als temporalen Wissensgraphen. Jede Kante traegt zwei Zeitstempel: Event-Time, wann die Tatsache in der Welt galt, und Ingestion-Time, wann Zep davon erfahren hat. Das macht temporales Reasoning zur Eigenschaft erster Klasse statt zur Erweiterung.
- LongMemEval-Score 63,8 Prozent gegenueber 49,0 Prozent von Mem0 in der direkten Vergleichsmessung
- Bis zu 90 Prozent geringere Latenz in komplexen temporalen Reasoning-Tasks
- SOC 2 Type 2, HIPAA und DSGVO zertifiziert, einziger der fünf mit vollem Compliance-Stack
- Validitaetsfenster pro Fakt: nicht "diese Tatsache existiert", sondern "diese Tatsache galt von wann bis wann"
- Beste Eignung: Customer Support, Sales, Health, Legal, Agenten mit strikten Audit-Anforderungen
Hermes Agent: Memory als Open-Source-Server
Hermes Agent von Nous Research, veröffentlicht im Februar 2026, ist der erste produktiv einsetzbare Open-Source-Server-Agent mit Selbstverbesserung. Vier Memory-Schichten, alle in Plain-Text-Files, alle versionierbar mit Git.
-
Schicht 1: Snapshot
MEMORY.mdundUSER.md, etwa 3.500 Zeichen, in jeden Turn eingespritzt. Bounded, immer im Kontext. -
Schicht 2: Historie
SQLite mit FTS5, jede Konversation durchsuchbar. Kein Vektor-Index, dafuer lexikalisch präzise.
-
Schicht 3: Skills
SKILL.md-Dateien, nach komplexen Tasks vom Agenten geschrieben. Wiederverwendbare Loesungsmuster. -
Schicht 4: Refinement
Neue Evidenz aktualisiert alte Skills. Das macht den Agenten über Zeit besser, ohne Retraining.
864 Commits zwischen v0.12 und v0.13, 295 Contributoren. Das ist eine Entwickler-Community, kein Vendor-Update. Beste Eignung: eigene Server, technische Teams, Workflows mit Wechselbedarf. Unsere ausfuehrliche Einordnung steht im Hermes-Artikel: Hermes Agent 2026: Der erste produktive Open-Source-KI-Agent .
OpenClaude: Memory als Plug-in-Skill
OpenClaude ist das Community-Framework um Claude-basierte Agenten. Die Super-Proactive-Skill bündelt elf Community-Skills zu einer einheitlichen Architektur, die proaktiv handelt, Hintergrund-Tasks ausführt und sich über Zeit verfeinert.
-
Write-Ahead-Logging-Mechanik: jede Entscheidung, Korrektur oder neue Tatsache landet als Zeitstempel-Eintrag in
SESSION-STATE.md, bevor der Agent weiterarbeitet - Hintergrund-Checks ohne explizite Prompts via Scheduler
- Persistenz ueberlebt das Konversations-Fenster
- Markdown-zentriert: portabel, entwicklerfreundlich, leicht zu auditieren
- Beste Eignung: entwicklerfreundliche Setups, in denen Markdown-Dateien als Speicher okay sind und Mehrnutzer-Isolation nicht zentral ist
Die Vergleichsmatrix
Eine kompakte Synthese der sieben Dimensionen über alle fünf Systeme. Die einzige Tabelle, die deutsche Entscheider 2026 wirklich brauchen, um eine erste Auswahl zu treffen.
| Dimension | Mem0 | Letta | Zep | Hermes | OpenClaude |
|---|---|---|---|---|---|
| Shape | SDK | Runtime | Graph-Engine | Server-Agent | Plug-in-Skill |
| Persistenz | Vector-Store | Drei-Tier-OS | Temporaler Graph | Snapshot + SQLite + Skills | Markdown-WAL |
| Decision-Locus | SDK-Extractor | Agent autonom | Graph-Engine | Agent ReAct | Agent + Cron |
| Proaktiv? | nein | via Autonomie | nein | via Skills | ja (Skill) |
| User-Veto | App-Ebene | App-Ebene | Enterprise ACL | nicht eingebaut | nicht eingebaut |
| Audit / Undo | begrenzt | Runtime-Traces | Graph-Historie | Git-fähige Files | WAL-Journal |
| DSGVO/SOC 2 | selbst | selbst | zertifiziert | selbst | selbst |
Deutsche und EU-Perspektive
Vier Compliance-Themen ueberlagern jede Entscheidung in deutschen Unternehmen. Sie verschieben den Punkt der Wahl von der Performance-Tabelle auf den Anbieter-Stack.
- DSGVO-Konformität: Zep ist als einziger der fünf vollumfaenglich zertifiziert; Mem0, Letta, Hermes und OpenClaude erfordern eigene Compliance-Arbeit
- Datenresidenz: Lokale Modelle und EU-konforme Inferenz-Backends sind für alle fünf möglich, kosten aber Tempo und Geld
- EU AI Act: Sobald Memory Personenbezug enthält oder Entscheidungen unterstützt, greifen Transparenz- und Dokumentationspflichten unabhaengig vom Anbieter
- Lock-in-Risiko: Letta ist das stickigste (Runtime), Mem0 das duennste (SDK), Zep das compliance-stabilste (managed enterprise), Hermes das offenste (selbst gehostet), OpenClaude das skill-zentrierteste
- Wer bereits Erfahrungen mit dem Karpathy-LLM-Wiki-Pattern sammelt, kennt die Disziplin der Schicht-Trennung, die hier in der Architektur-Wahl wiederkehrt
- Der KI-Agenten-Wildwuchs wird durch ungeplante Memory-Entscheidungen verschärft, weil jede Abteilung sich ihren eigenen Anbieter aussucht
Was Unternehmen jetzt tun sollten
Sechs konkrete Schritte für die nächsten drei Monate. Die Reihenfolge zählt.
-
Use Case zuerst
Wissensbasis, Coaching-Agent, Customer-Support-Memory oder Coding-Assistent? Ohne klaren Use Case ist jeder Vergleich unbrauchbar.
-
Personal vs Enterprise
Personal-Setup (Mem0, Hermes) oder Enterprise-Plattform (Zep, Letta)? Die Trennung entscheidet über Aufwand und Lock-in.
-
Compliance mitskalieren
Je mehr Personenbezug im Memory, desto strenger die Audit-Anforderungen. Plant die Stack-Wahl mit der Datenklassifikation, nicht danach.
-
Zwei Systeme parallel pilotieren
In einem klar abgegrenzten Pilotprojekt mindestens zwei Systeme nebeneinander testen. Benchmark-Zahlen ersetzen keinen eigenen Pilot.
-
Reversibilitaet einbauen
Jede Memory-Operation muss reproduzierbar undoable sein. Sonst gibt es kein Vertrauen, weder beim Nutzer noch beim Audit.
-
Backend frueh entscheiden
EU-konforme Inferenz oder akzeptiertes Restrisiko bei US-Anbietern. Jede Variante hat einen Preis, jede ist begruendbar, aber nicht alle sind austauschbar.
Wer 2026 Memory-Entscheidungen trifft, sollte den Use Case dreimal lauter formulieren als die Benchmark-Tabelle. Die Architektur folgt der Aufgabe, nicht der Bestenliste.
Herausforderungen und Risiken
Fünf Risiken stechen heraus, die über alle Systeme hinweg gelten.
- Halluzinations-Kompoundierung: Falsche Fakten im Memory werden von späteren Schritten als gegeben behandelt und in Synthese-Eintraegen zementiert.
- Token-Kosten skalieren mit der Memory-Tiefe: Letta ist hier am teuersten, Mem0 am sparsamsten. Bei produktivem Einsatz wird das ein eigener Haushaltsposten.
- Vendor-Lock-in: Besonders bei Runtime-Modellen wie Letta. Der Wechsel kostet Wochen, nicht Tage.
- Privacy-Drift: Memory wird oft tiefer als der Nutzer erwartet. Ohne explizites Veto-Modell entsteht ein Vertrauensbruch.
- Halbwertszeit der Wahrheit: In schnellen Domänen veralten Memory-Eintraege frueher als die Quellen; nicht jedes System erkennt das.
Weiterführende Informationen
Häufig gestellte Fragen
Keines für alle Faelle. Mem0 führt 2026 die Benchmarks mit 92,5 Prozent LoCoMo und 94,4 Prozent LongMemEval, hat aber kein Audit-Modell. Zep ist der einzige der fünf mit SOC 2 Type 2, HIPAA und DSGVO-Zertifizierung. Letta hat den hoechsten Lock-in als Runtime. Hermes ist Open-Source-Server-Software. OpenClaude ist Markdown-zentriert. Die Wahl hängt vom Use Case ab, nicht vom Benchmark.
RAG holt bei jeder Frage Chunks aus einem Vektorindex und baut eine Antwort. Mem0 extrahiert beim Schreiben Fakten mit vier Operationen, ADD, UPDATE, DELETE und NOOP, und speichert sie als persistente Memory-Eintraege. Mem0s Token-Efficient-Algorithmus liegt unter 7.000 Tokens pro Retrieval gegenueber 25.000 Plus bei Full-Context.
Zep ist als einziger der fünf vollumfaenglich SOC 2 Type 2, HIPAA und DSGVO-zertifiziert. Mem0, Letta, Hermes und OpenClaude erfordern eigene Compliance-Arbeit. Wer auf lokale Inferenz und europäische Backends setzt, kann jedes System DSGVO-konform betreiben, traegt aber den Aufwand selbst.
Hoch. Letta ist keine SDK, sondern eine Runtime. Agenten laufen in Letta, nicht mit Letta. Vectorize und TokenMix nennen Framework-Lock-in als häufigsten Wechselgrund. Ein Migration-Aufwand von zwei bis sechs Wochen ist die Norm. Mem0 hat dagegen nur drei Call-Sites und ist mit zwei Personentagen wechselbar.
Graphiti ist die Graph-Engine hinter Zep. Jede Kante traegt zwei Zeitstempel: Event-Time, wann die Tatsache in der Welt galt, und Ingestion-Time, wann das System davon erfahren hat. Das macht temporales Reasoning zur Eigenschaft erster Klasse statt zur Erweiterung. In LongMemEval-Tests erreicht Zep 63,8 Prozent versus 49,0 Prozent bei Mem0 in der direkten Vergleichsmessung.
Hermes Agent von Nous Research wurde im Februar 2026 veröffentlicht und kombiniert vier Memory-Schichten in einem Open-Source-Server-Agenten: MEMORY.md-Snapshot von rund 3.500 Zeichen pro Turn, SQLite mit FTS5 für alle Konversationen, SKILL.md-Dateien nach komplexen Tasks und eine Refinement-Schicht. Zwischen v0.12 und v0.13 sind 864 Commits von 295 Contributoren eingegangen. Hermes ist die Wahl für technische Teams, die einen eigenen Server für ihre Agenten haben wollen.