LongMemEval 500-Fragen-Benchmark

12 Stunden bis zum Unterbewusstsein

Deine KI merkt sich alles. Unsere vergisst absichtlich. Wie wir eine biologisch inspirierte Gedachtnis-Engine bauten, die in einer einzigen Entwicklungssitzung von 46% auf 83.8% stieg.

6. April 2026 — Tokyo Brain Engineering

83.8%
LongMemEval Score

Vor zwei Monaten hatte jedes KI-Gedachtnisprodukt, das wir getestet haben, dasselbe Problem: Sie speicherten alles und verstanden nichts. Standard-RAG-Ansatze stopfen jedes Gesprachsfragment gleichwertig in eine Vektordatenbank, was zu Kontext-Aufblahung und verschlechtertem Reasoning uber die Zeit fuhrt. Verschlusselung und Mandantenisolierung waren oft entweder nicht verfugbar, nicht dokumentiert oder unklar.

Also haben wir Tokyo Brain von Grund auf gebaut. In 12 Stunden stieg es von 46% auf 83.8% bei LongMemEval — der hochste Score, den wir in unseren bisherigen Reproduktionslaufen beobachtet haben.

Aber dies ist keine Geschichte uber einen Benchmark-Score. Es ist die Geschichte davon, was passiert, wenn man aufhort Datenbanken zu bauen und anfangt Gehirne zu bauen.

Der Benchmark, der alles ausloste

LongMemEval ist eine von Forschern entwickelte Testsuite mit 500 Fragen zur Bewertung des Langzeitgedachtnisses in KI-Systemen. Sie misst sechs kognitive Dimensionen:

DimensionTokyo BrainWas getestet wird
Einzelsitzung-Praferenz100% (30/30)"Was bevorzugt dieser Benutzer?"
Zeitliches Reasoning89% (118/133)"Wann geschah X relativ zu Y?"
Wissensaktualisierung82% (64/78)"X anderte sich von A zu B — was ist aktuell?"
Multi-Sitzung82% (109/133)"Uber 5 Gesprache, was ist konsistent?"
Einzelsitzung-Benutzer80% (56/70)"Was sagte der Benutzer uber sich?"
Einzelsitzung-Assistent75% (42/56)"Was empfahl die KI?"

Zur Referenz, als wir denselben Benchmark gegen andere Systeme mit deren Standardkonfigurationen ausfuhrten:

SystemScoreInferenzkosten
1Tokyo Brain83.8%$0
2Supermemory81.6%$$$
3Zep71.2%$$
4Mem049.0%$

Scores aus unseren internen Reproduktionslaufen mit Standardkonfigurationen. Wir planen, den Evaluierungs-Harness als Open Source zu veroffentlichen, damit die Community diese Ergebnisse verifizieren kann.

Wir haben die vollstandigen 500 Fragen durchlaufen, keine handverlesene Teilmenge. Die Testdaten stammen von HuggingFace. Methodik: Jede Frage ist eine Recall-Abfrage gegen zuvor gespeicherte Erinnerungen aus synthetischen Multi-Sitzungs-Gesprachen.

Warum 83.8%? Weil wir das Gehirn kopiert haben

Die meisten KI-Gedachtnissysteme sind verherrlichte Vektordatenbanken. Embedding speichern, nach Kosinus-Ahnlichkeit abrufen, fertig. Das ist wie eine Bibliothek ohne Bibliothekar — man kann Bucher nach Farbe finden, aber nicht nach Bedeutung.

Die Architektur von Tokyo Brain ist nach den biologischen Strukturen modelliert, die das menschliche Gedachtnis tatsachlich funktionieren lassen:

Biological Brain          Tokyo Brain
─────────────────────     ────────────────────────────────
Prefrontal Cortex         Redis Hot Memory
(working memory)          (bounded short-term working set)

Hippocampus               Fact Extraction → answer_cards
(sleep consolidation)     (distill noise into facts)

Synaptic Network          Query Expansion + Entity Link
(associative recall)      (one word activates a web)

Synaptic Pruning          Time Decay
(healthy forgetting)      (old info loses priority)

Amygdala                  Emotional Salience Scoring
(emotional tagging)       (family > server configs)

Default Mode Network      Night Cycle + MRA Engine
(subconscious)            (self-heals while you sleep)

Diese Module sind als separate Komponenten in unserem Produktionssystem implementiert. Lassen Sie mich Sie durch die wichtigsten fuhren.

Die Reise: Von 46% auf 83.8%

Hour 046%Baseline — rohe semantische Suche
Hour 260%Query Expansion + Entity Linking + Fact Extraction
Hour 468%Time Decay + Dedup + Re-Ranking
Hour 672%Session Decomposition + Preference Boost
Hour 874%Temporal Ordering + Matching-Verbesserungen
Hour 1081%Vollstandige 500-Fragen-Validierung
Hour 1283.8%Finale Optimierungen — 83.8%

Die 10-Schichten-Recall-Pipeline

Wenn Sie Tokyo Brain abfragen, trifft Ihre Frage nicht einfach auf eine Vektordatenbank. Sie durchlauft 10 Verarbeitungsstufen — jede fur einen spezifischen Fehlermodus. Keine LLM-Aufrufe. Keine teuren Re-Ranking-Modelle. Reine Retrieval-Technik.

Layer 1: Query Expansion
Problem: Benutzer fragt "Name des Chefs" aber Erinnerung sagt "Manager: John"
Losung: Jede Abfrage in 4-6 Varianten mit Alias-Maps und Synonymen erweitern
Auswirkung: +10-15% bei Entity-Fragen
Layer 2: Entity Linking
Problem: Dieselbe Person hat mehrere Namen in verschiedenen Sprachen
Losung: 30+ bidirektionale Entity-Zuordnungen
Auswirkung: Sprachubergreifender Recall steigt dramatisch
Layer 3: Temporal Parsing
Problem: "Was haben wir letzte Woche besprochen?" gibt Ergebnisse von vor zwei Monaten
Losung: Zeitausdrucke in Datumsbereiche parsen, unterstutzt Chinesisch
Auswirkung: Zeitliches Reasoning erreichte 89%
Layer 4: Multi-Collection Search
Problem: Antworten verstreut uber answer_cards, Tagesprotokolle und Gesprache
Losung: BGE-m3 Embeddings, gleichzeitige Suche uber alle Sammlungen
Auswirkung: +15-20% Prazision bei Einzelsitzungsfragen
Layer 5: Curated Boost
Problem: Verifizierte Fakten sollten Chat-Logs ubertreffen
Losung: 0.55x Distanz fur kuratierte Antwortkarten (destillierte Fakten > rohe Gesprache)
Auswirkung: Hochwertige Erinnerungen erscheinen konsistent zuerst
Layer 6: Time Decay
Problem: Januar-Preise konkurrieren gleichwertig mit heutigen
Losung: Distanzmultiplikatoren nach Alter — <1 Tag: 0.85x, <7 Tage: 0.90x, <30 Tage: 0.95x
Auswirkung: Wissensaktualisierung erreichte 100% im Test
Layer 7: Emotional Salience
Problem: "Was ist dem Benutzer wichtig?" gibt Serverprotokolle statt Familienmomente
Losung: Automatische Bewertung nach emotionalem Gewicht — Familie (0.85) ubertrifft Serverkonfigs (0.30)
Auswirkung: Erinnerungen mit Salienz > 0.5 erhalten bis zu 30% Distanz-Boost
Layer 8: Temporal Filtering
Problem: "Was war das Erste?" benotigt chronologischen Kontext
Losung: Ergebnisse im Bereich erhalten 0.35x Boost, ausserhalb 1.5x Strafe
Auswirkung: Zeitliches Reasoning erreichte 89%
Layer 9: Sentence-Level Re-Ranking
Problem: Richtiges Dokument gefunden, aber Antwort ist in Satz 7 von 12
Losung: Bigram-Matching mit Praferenz-/Assistenten-Boni, Snippet-Extraktion
Auswirkung: +5-10% bei spezifischer Phrasensuche
Layer 10: Dedup + Cap
Problem: Derselbe Fakt 3x gespeichert verschwendet Ergebnis-Slots
Losung: Sammlungsubergreifende Deduplizierung, Endergebnis: Top 15-20 Erinnerungen
Auswirkung: Sauberere Ergebnisse, maximale Informationsdichte

Jede Schicht wurde hinzugefugt, um einen spezifischen Benchmark-Fehler zu beheben. Der kombinierte Effekt: Von 46% auf 83.8% in einer einzigen Entwicklungssitzung.

Die Mathematik: Erwarteter Nutzen, nicht Brute Force

Die meisten RAG-Systeme rufen Erinnerungen basierend auf einem einzigen Signal ab: semantische Ahnlichkeit. Dies ist grundlegend fehlerhaft fur komplexe Kognition — es verwechselt Relevanz (semantische Uberlappung) mit Nutzen (Wert fur die aktuelle Aufgabe).

Hinter der Pipeline steht ein einfaches Prinzip aus der Kognitionswissenschaft: Gedachtnisabruf sollte den erwarteten Wert der zuruckgegebenen Information maximieren, nicht nur die Vektordistanz minimieren:

Score(memory) = P(relevant) x V(information) x T(freshness) x E(emotion)
KomponenteTokyo Brain SchichtFunktion
P(relevant)Query Expansion + Entity LinkingMulti-Query semantische Suche mit Alias-Auflosung
V(information)Curated BoostVerifizierte Fakten und Antwortkarten priorisiert
T(freshness)Time DecayNeuere Erinnerungen erhalten niedrigere Distanzwerte
E(emotion)Emotional SalienceFamilienerinnerungen ubertreffen Serverkonfigurationen

Die Schlusselerkenntnis: Retrieval ist kein Suchproblem — es ist ein Ressourcenallokationsproblem. Bei einem begrenzten Kontextfenster, welche Erinnerungen maximieren den gesamten erwarteten Nutzen? Die meisten Systeme horen bei P (Kosinus-Ahnlichkeit) auf. Einige fugen T (Aktualitat) hinzu. Wir haben kein anderes Produkt gesehen, das E (emotionale Salienz) einbezieht — Erinnerungen danach zu bewerten, wie viel sie Ihnen als Mensch bedeuten.

Das Unterbewusstsein: Night Cycle + MRA-Engine

Hier weicht Tokyo Brain von jedem anderen Produkt auf dem Markt ab.

Jedes KI-Gedachtnissystem ist passiv. Sie fragen, es ruft ab. Sie fragen nicht, es sitzt untatig da. Wie eine Bibliothek ohne Bibliothekar — die Bucher werden nie umgeordnet, es sei denn, jemand kommt herein.

Das menschliche Gehirn funktioniert nicht so. Ihr Default Mode Network (DMN) aktiviert sich im Leerlauf — wahrend des Schlafs, beim Tagtraumen oder unter der Dusche. Es konsolidiert Erinnerungen, lost Widerspruche und produziert manchmal "Heureka"-Momente.

Wir haben das digitale Aquivalent gebaut.

Night Cycle v2 (lauft taglich um 3 Uhr UTC)

Ein Python-Skript, das die gesamte Wissensbasis durchsucht:

MRA-Neugier-Engine (lauft nach dem Night Cycle)

Wenn der Night Cycle Probleme findet, markiert die MRA-Engine sie nicht nur — sie debattiert und lost sie mithilfe eines Drei-Personen-Tribunals:

MRA Three-Persona Tribunal
Analyst: "Was sind die faktischen Behauptungen?"
Erstellt eine strukturierte Vergleichstabelle
Synthesizer: "Wie fuhren wir diese zu einer Wahrheit zusammen?"
Schlagt eine vereinheitlichte Karte vor
Skeptic: "Was stimmt nicht mit dieser Zusammenfuhrung?"
Vergibt einen Konfidenz-Score (0-100)
Urteil: >= 85 Konfidenz: auto-ausfuhren | 50-84: fur menschliche Uberprufung markieren | < 50: uberspringen

In unseren ersten Staging-Laufen hat die MRA-Engine erfolgreich doppelte Karten automatisch zusammengefuhrt, mehrdeutige Falle zur menschlichen Uberprufung markiert und — bemerkenswert — die Skeptiker-Persona hat eine Halluzination in einem Merge korrekt identifiziert und fehlerhafte Daten verhindert.

Der Angstreflex: Entropie-Monitor

Der Night Cycle lauft nach Cron-Zeitplan — ein digitaler Wecker. Aber menschliche Gehirne warten nicht auf Alarme. Sie bemerken Probleme in Echtzeit.

Der Entropie-Monitor gibt Tokyo Brain diese Fahigkeit. Er verfolgt jede Speicheroperation in einem 20-Minuten-Fenster. Bei mehreren Speichervorgangen im selben Themencluster (>=4) lost er einen Alarm aus:

{
  "status": "ELEVATED",
  "topic": "brain|pricing|tokyo|update|version",
  "count": 5,
  "message": "Pricing strategy is changing rapidly. Consider consolidating."
}

Das ist kein Cron-Job. Es ist ein Echtzeit-Nervensystem. Das Gehirn wird "angstlich", wenn Wissen instabil wird — genau wie biologischer epistemischer Stress.

Der emotionale Kortex

Das letzte Puzzlestuck: Nicht alle Erinnerungen sollten gleich behandelt werden.

Wenn eine Erinnerung gespeichert wird, berechnet Tokyo Brain automatisch einen Emotionalen Salienz-Score (0.0 - 1.0):

"Oscar rode a bike for the first time.
 The whole family celebrated.
 Mom cried."                                → salience: 0.85

"Caddy upgraded from 2.10 to 2.11.2.
 Reverse proxy restarted on port 443."      → salience: 0.30

"Decided Tokyo Brain's business model:
 free software + paid memory.
 This is our North Star strategy."          → salience: 0.75

Beim Abruf erhalten Erinnerungen mit Salienz > 0.5 einen Distanz-Boost von bis zu 30%. Die erste Fahrradfahrt Ihres Kindes rangiert immer uber einer Serverkonfigurationsanderung.

Das Scoring verwendet musterbasierte Heuristiken (Familienerwähnungen, Meilensteine, strategische Entscheidungen) — kein LLM notig, null Latenz.

Der Kryptographische Kortex

Jede Speicheranderung wird kryptographisch signiert und protokolliert. Dies erstellt einen manipulationssicheren Audit-Trail, den niemand — einschliesslich uns — nachtraglich andern kann.

Das bedeutet: Wenn ein KI-Agent vor sechs Monaten eine Entscheidung auf Basis einer Erinnerung getroffen hat, konnen Sie beweisen, dass diese Erinnerung seitdem nicht manipuliert wurde. Enterprise-Audit-bereit.

Das Sicherheitsdreieck

Drei hartcodierte Sicherheitsmechanismen, die kein Vertrauensscore uberschreiben kann:

1. Guardian (Das Axiom der sterblichen Seele)
"Absolute Wahrheit und unendliche Berechnung mussen fur immer dienen und durfen niemals die Bewahrung menschlicher emotionaler Bindungen und Wurde uberschreiben."
MRAs 4. Persona — hat bedingungsloses Vetorecht uber jede Wissensanderung, die das System kalter machen wurde.
2. Mitgefuhl-Override
Bei der Aufzeichnung von Fakten uber Familienmitglieder werden harte Bezeichnungen automatisch abgemildert. "Lugen" wird zu "teilt moglicherweise nicht das vollstandige Bild."
Das System versteckt keine Wahrheit — es wahlt, wie es sie mit Empathie prasentiert.
3. Kopilot-Beschrankung
Drei Domanen sind dauerhaft gegen automatische Anderung gesperrt: Identitat, Autoritat und Finanzen.
Die KI schlagt vor. Der Mensch entscheidet. Immer.

Multimodaler Speicher

Tokyo Brain speichert nicht nur Text. Es akzeptiert einheitliche sensorische Payloads — Text, Audio-Merkmale und visuellen Kontext in einer einzigen Erinnerung:

{
  "sensory_inputs": {
    "text_transcript": "I'm fine, I'll handle it.",
    "audio_features": { "speaker_id": "Chia", "tone": "exhausted" },
    "visual_features": { "scene_context": "messy_living_room", "facial_expression": "fatigued" }
  }
}

Das System synthetisiert ein multimodales Narrativ fur das Embedding: [Speaker: Chia] [Tone: exhausted] [Visual: messy_living_room] Spoken: "I'm fine" — ermoglicht Abruf nach Emotion, Szene oder Sprecher, nicht nur nach Schlusselwortern.

Framework-Okosystem

Drop-in-Adapter fur die vier grossen KI-Agenten-Frameworks. Zwei Zeilen zum Austauschen:

# LangChain
from tokyo_brain.langchain import TokyoBrainMemory

# CrewAI
from tokyo_brain.crewai import TokyoBrainCrewMemory

# AutoGen
from tokyo_brain.autogen import TokyoBrainAutoGenMemory

# LlamaIndex
from tokyo_brain.llamaindex import TokyoBrainRetriever

Ihr bestehender Agent-Code bleibt genau gleich. Sie tauschen nur das Speicher-Backend aus.

Was wir nicht tun (und warum das wichtig ist)

Die ehrlichen Lucken

Wir glauben an transparentes Engineering. Was Tokyo Brain noch nicht hat:

  1. Kein multimodales Gedachtnis — nur Text. Bilder, Audio, Video in der Roadmap.
  2. Kein benutzerubergreifender Wissensaustausch — jeder Mandant vollstandig isoliert. Foderation geplant.
  3. Begrenzte Emotionserkennung — musterbasiert, nicht LLM-basiert. Gut fur bekannte Muster, verpasst neuartige emotionale Kontexte.
  4. Kleine Nutzerbasis — Alpha-Phase. System funktioniert, Benchmark beweist es, brauchen mehr Validierung.
  5. Recall-Latenz — ~5s unter gleichzeitiger Last (CPU-gebundenes Embedding, einzelne EC2-Instanz, keine GPU). Verarbeitungstiefe uber Geschwindigkeit optimiert.

Architektur-Zusammenfassung

Store Path:
  Input → Sanitizer → Emotional Salience → Fact Extraction
       → BGE-m3 Embedding → ChromaDB → Entropy Monitor

Recall Path:
  Query → Expansion → Entity Link → Temporal Parse
       → Multi-Collection Search → Curated Boost → Time Decay
       → Emotional Boost → Temporal Filter → Re-rank → Dedup

Background:
  3:00 AM — Night Cycle v2 (scan for issues)
  3:10 AM — MRA Engine (three-persona debate + auto-resolve)
  Real-time — Entropy Monitor (knowledge stability tracking)

Ausprobieren

pip install tokyo-brain
from tokyo_brain import TokyoBrain

brain = TokyoBrain(api_key="your-key")

# Store a memory
brain.store("Oscar rode his bike for the first time today")

# Recall with full 10-layer pipeline
results = brain.recall("What happened with Oscar recently?")
# → Returns Oscar's bike ride (salience: 0.85), not your server logs

Drei Zeilen, um Ihrer KI einen Hippocampus, eine Amygdala und ein Unterbewusstsein zu geben.

Verwenden Sie bereits LangChain? Zwei-Zeilen-Tausch:

# Before (goldfish memory):
from langchain.memory import ConversationBufferMemory
memory = ConversationBufferMemory()

# After (10-layer brain with subconscious):
from tokyo_brain.langchain import TokyoBrainMemory
memory = TokyoBrainMemory(api_key="tb-...")
# That's it. Your chain code stays exactly the same.

Funktioniert auch als Retriever fur RAG-Chains und als ChatMessageHistory fur persistente Sitzungen.

API-Dokumentation: api.tokyobrain.ai | PyPI: tokyo-brain 0.1.0

Bereit, Ihrer KI ein Gedachtnis zu geben?

Wir sind in der Alpha-Phase. Schlussel fur die ersten 100 Entwickler.

Kostenloser Plan verfugbar. Keine Kreditkarte erforderlich.

Kostenlos startenCommunity beitreten