Vor zwei Monaten hatte jedes KI-Gedachtnisprodukt, das wir getestet haben, dasselbe Problem: Sie speicherten alles und verstanden nichts. Standard-RAG-Ansatze stopfen jedes Gesprachsfragment gleichwertig in eine Vektordatenbank, was zu Kontext-Aufblahung und verschlechtertem Reasoning uber die Zeit fuhrt. Verschlusselung und Mandantenisolierung waren oft entweder nicht verfugbar, nicht dokumentiert oder unklar.
Also haben wir Tokyo Brain von Grund auf gebaut. In 12 Stunden stieg es von 46% auf 83.8% bei LongMemEval — der hochste Score, den wir in unseren bisherigen Reproduktionslaufen beobachtet haben.
Aber dies ist keine Geschichte uber einen Benchmark-Score. Es ist die Geschichte davon, was passiert, wenn man aufhort Datenbanken zu bauen und anfangt Gehirne zu bauen.
Der Benchmark, der alles ausloste
LongMemEval ist eine von Forschern entwickelte Testsuite mit 500 Fragen zur Bewertung des Langzeitgedachtnisses in KI-Systemen. Sie misst sechs kognitive Dimensionen:
| Dimension | Tokyo Brain | Was getestet wird |
|---|---|---|
| Einzelsitzung-Praferenz | 100% (30/30) | "Was bevorzugt dieser Benutzer?" |
| Zeitliches Reasoning | 89% (118/133) | "Wann geschah X relativ zu Y?" |
| Wissensaktualisierung | 82% (64/78) | "X anderte sich von A zu B — was ist aktuell?" |
| Multi-Sitzung | 82% (109/133) | "Uber 5 Gesprache, was ist konsistent?" |
| Einzelsitzung-Benutzer | 80% (56/70) | "Was sagte der Benutzer uber sich?" |
| Einzelsitzung-Assistent | 75% (42/56) | "Was empfahl die KI?" |
Zur Referenz, als wir denselben Benchmark gegen andere Systeme mit deren Standardkonfigurationen ausfuhrten:
| System | Score | Inferenzkosten | |
|---|---|---|---|
| 1 | Tokyo Brain | 83.8% | $0 |
| 2 | Supermemory | 81.6% | $$$ |
| 3 | Zep | 71.2% | $$ |
| 4 | Mem0 | 49.0% | $ |
Scores aus unseren internen Reproduktionslaufen mit Standardkonfigurationen. Wir planen, den Evaluierungs-Harness als Open Source zu veroffentlichen, damit die Community diese Ergebnisse verifizieren kann.
Wir haben die vollstandigen 500 Fragen durchlaufen, keine handverlesene Teilmenge. Die Testdaten stammen von HuggingFace. Methodik: Jede Frage ist eine Recall-Abfrage gegen zuvor gespeicherte Erinnerungen aus synthetischen Multi-Sitzungs-Gesprachen.
Warum 83.8%? Weil wir das Gehirn kopiert haben
Die meisten KI-Gedachtnissysteme sind verherrlichte Vektordatenbanken. Embedding speichern, nach Kosinus-Ahnlichkeit abrufen, fertig. Das ist wie eine Bibliothek ohne Bibliothekar — man kann Bucher nach Farbe finden, aber nicht nach Bedeutung.
Die Architektur von Tokyo Brain ist nach den biologischen Strukturen modelliert, die das menschliche Gedachtnis tatsachlich funktionieren lassen:
Biological Brain Tokyo Brain ───────────────────── ──────────────────────────────── Prefrontal Cortex Redis Hot Memory (working memory) (bounded short-term working set) Hippocampus Fact Extraction → answer_cards (sleep consolidation) (distill noise into facts) Synaptic Network Query Expansion + Entity Link (associative recall) (one word activates a web) Synaptic Pruning Time Decay (healthy forgetting) (old info loses priority) Amygdala Emotional Salience Scoring (emotional tagging) (family > server configs) Default Mode Network Night Cycle + MRA Engine (subconscious) (self-heals while you sleep)
Diese Module sind als separate Komponenten in unserem Produktionssystem implementiert. Lassen Sie mich Sie durch die wichtigsten fuhren.
Die Reise: Von 46% auf 83.8%
Die 10-Schichten-Recall-Pipeline
Wenn Sie Tokyo Brain abfragen, trifft Ihre Frage nicht einfach auf eine Vektordatenbank. Sie durchlauft 10 Verarbeitungsstufen — jede fur einen spezifischen Fehlermodus. Keine LLM-Aufrufe. Keine teuren Re-Ranking-Modelle. Reine Retrieval-Technik.
Jede Schicht wurde hinzugefugt, um einen spezifischen Benchmark-Fehler zu beheben. Der kombinierte Effekt: Von 46% auf 83.8% in einer einzigen Entwicklungssitzung.
Die Mathematik: Erwarteter Nutzen, nicht Brute Force
Die meisten RAG-Systeme rufen Erinnerungen basierend auf einem einzigen Signal ab: semantische Ahnlichkeit. Dies ist grundlegend fehlerhaft fur komplexe Kognition — es verwechselt Relevanz (semantische Uberlappung) mit Nutzen (Wert fur die aktuelle Aufgabe).
Hinter der Pipeline steht ein einfaches Prinzip aus der Kognitionswissenschaft: Gedachtnisabruf sollte den erwarteten Wert der zuruckgegebenen Information maximieren, nicht nur die Vektordistanz minimieren:
| Komponente | Tokyo Brain Schicht | Funktion |
|---|---|---|
| P(relevant) | Query Expansion + Entity Linking | Multi-Query semantische Suche mit Alias-Auflosung |
| V(information) | Curated Boost | Verifizierte Fakten und Antwortkarten priorisiert |
| T(freshness) | Time Decay | Neuere Erinnerungen erhalten niedrigere Distanzwerte |
| E(emotion) | Emotional Salience | Familienerinnerungen ubertreffen Serverkonfigurationen |
Die Schlusselerkenntnis: Retrieval ist kein Suchproblem — es ist ein Ressourcenallokationsproblem. Bei einem begrenzten Kontextfenster, welche Erinnerungen maximieren den gesamten erwarteten Nutzen? Die meisten Systeme horen bei P (Kosinus-Ahnlichkeit) auf. Einige fugen T (Aktualitat) hinzu. Wir haben kein anderes Produkt gesehen, das E (emotionale Salienz) einbezieht — Erinnerungen danach zu bewerten, wie viel sie Ihnen als Mensch bedeuten.
Das Unterbewusstsein: Night Cycle + MRA-Engine
Hier weicht Tokyo Brain von jedem anderen Produkt auf dem Markt ab.
Jedes KI-Gedachtnissystem ist passiv. Sie fragen, es ruft ab. Sie fragen nicht, es sitzt untatig da. Wie eine Bibliothek ohne Bibliothekar — die Bucher werden nie umgeordnet, es sei denn, jemand kommt herein.
Das menschliche Gehirn funktioniert nicht so. Ihr Default Mode Network (DMN) aktiviert sich im Leerlauf — wahrend des Schlafs, beim Tagtraumen oder unter der Dusche. Es konsolidiert Erinnerungen, lost Widerspruche und produziert manchmal "Heureka"-Momente.
Wir haben das digitale Aquivalent gebaut.
Night Cycle v2 (lauft taglich um 3 Uhr UTC)
Ein Python-Skript, das die gesamte Wissensbasis durchsucht:
- Beinahe-Duplikate — Karten mit >88% Embedding-Ahnlichkeit, Zusammenfuhrungskandidaten
- Veraltete Karten — Fakten alter als 30 Tage, zu denen neuere Informationen existieren
- Verwaiste Entscheidungen — wichtige Entscheidungen in Tagesprotokollen, aber nie in permanentes Wissen destilliert
- Mull-Karten — Eintrage zu kurz, zu lang oder hauptsachlich Formatierungsrauschen
MRA-Neugier-Engine (lauft nach dem Night Cycle)
Wenn der Night Cycle Probleme findet, markiert die MRA-Engine sie nicht nur — sie debattiert und lost sie mithilfe eines Drei-Personen-Tribunals:
In unseren ersten Staging-Laufen hat die MRA-Engine erfolgreich doppelte Karten automatisch zusammengefuhrt, mehrdeutige Falle zur menschlichen Uberprufung markiert und — bemerkenswert — die Skeptiker-Persona hat eine Halluzination in einem Merge korrekt identifiziert und fehlerhafte Daten verhindert.
Der Angstreflex: Entropie-Monitor
Der Night Cycle lauft nach Cron-Zeitplan — ein digitaler Wecker. Aber menschliche Gehirne warten nicht auf Alarme. Sie bemerken Probleme in Echtzeit.
Der Entropie-Monitor gibt Tokyo Brain diese Fahigkeit. Er verfolgt jede Speicheroperation in einem 20-Minuten-Fenster. Bei mehreren Speichervorgangen im selben Themencluster (>=4) lost er einen Alarm aus:
{
"status": "ELEVATED",
"topic": "brain|pricing|tokyo|update|version",
"count": 5,
"message": "Pricing strategy is changing rapidly. Consider consolidating."
}
Das ist kein Cron-Job. Es ist ein Echtzeit-Nervensystem. Das Gehirn wird "angstlich", wenn Wissen instabil wird — genau wie biologischer epistemischer Stress.
Der emotionale Kortex
Das letzte Puzzlestuck: Nicht alle Erinnerungen sollten gleich behandelt werden.
Wenn eine Erinnerung gespeichert wird, berechnet Tokyo Brain automatisch einen Emotionalen Salienz-Score (0.0 - 1.0):
"Oscar rode a bike for the first time. The whole family celebrated. Mom cried." → salience: 0.85 "Caddy upgraded from 2.10 to 2.11.2. Reverse proxy restarted on port 443." → salience: 0.30 "Decided Tokyo Brain's business model: free software + paid memory. This is our North Star strategy." → salience: 0.75
Beim Abruf erhalten Erinnerungen mit Salienz > 0.5 einen Distanz-Boost von bis zu 30%. Die erste Fahrradfahrt Ihres Kindes rangiert immer uber einer Serverkonfigurationsanderung.
Das Scoring verwendet musterbasierte Heuristiken (Familienerwähnungen, Meilensteine, strategische Entscheidungen) — kein LLM notig, null Latenz.
Der Kryptographische Kortex
Jede Speicheranderung wird kryptographisch signiert und protokolliert. Dies erstellt einen manipulationssicheren Audit-Trail, den niemand — einschliesslich uns — nachtraglich andern kann.
- SHA-256 Hash — jede Erinnerung erhalt einen einzigartigen Inhalts-Fingerabdruck zum Zeitpunkt des Schreibens
- Digitale Signatur — jede Mutation wird mit einem Ethereum-kompatiblen Wallet-Schlussel signiert
- Beweiskette — vollstandige Mutationshistorie: wer hat was geandert, wann und warum
- Verifizierung — jeder kann die Integritat einer Erinnerung uber den
/verify-Endpoint verifizieren
Das bedeutet: Wenn ein KI-Agent vor sechs Monaten eine Entscheidung auf Basis einer Erinnerung getroffen hat, konnen Sie beweisen, dass diese Erinnerung seitdem nicht manipuliert wurde. Enterprise-Audit-bereit.
Das Sicherheitsdreieck
Drei hartcodierte Sicherheitsmechanismen, die kein Vertrauensscore uberschreiben kann:
Multimodaler Speicher
Tokyo Brain speichert nicht nur Text. Es akzeptiert einheitliche sensorische Payloads — Text, Audio-Merkmale und visuellen Kontext in einer einzigen Erinnerung:
{
"sensory_inputs": {
"text_transcript": "I'm fine, I'll handle it.",
"audio_features": { "speaker_id": "Chia", "tone": "exhausted" },
"visual_features": { "scene_context": "messy_living_room", "facial_expression": "fatigued" }
}
}
Das System synthetisiert ein multimodales Narrativ fur das Embedding: [Speaker: Chia] [Tone: exhausted] [Visual: messy_living_room] Spoken: "I'm fine" — ermoglicht Abruf nach Emotion, Szene oder Sprecher, nicht nur nach Schlusselwortern.
Framework-Okosystem
Drop-in-Adapter fur die vier grossen KI-Agenten-Frameworks. Zwei Zeilen zum Austauschen:
# LangChain from tokyo_brain.langchain import TokyoBrainMemory # CrewAI from tokyo_brain.crewai import TokyoBrainCrewMemory # AutoGen from tokyo_brain.autogen import TokyoBrainAutoGenMemory # LlamaIndex from tokyo_brain.llamaindex import TokyoBrainRetriever
Ihr bestehender Agent-Code bleibt genau gleich. Sie tauschen nur das Speicher-Backend aus.
Was wir nicht tun (und warum das wichtig ist)
- Kein "alles speichern"-Ansatz. Der integrierte Sanitizer filtert niedrig-Signal-Inhalte vor der Speicherung. Aggressives Filtern erzeugt besseren Recall als Horten.
- Keine Herstellerbindung. BYOK (Bring Your Own Key) — verwenden Sie Ihren eigenen LLM-Anbieter. Wir berechnen nur fur Gedachtnisinfrastruktur, nie fur Compute.
- Verschlusselung standardmassig. AES-256-GCM im Ruhezustand. Schlusselisolierung pro Mandant. Designanforderung vom ersten Tag.
- Kein Englisch-Bias. BGE-m3 Embeddings + 50+ Sprachen. Fragen Sie auf Chinesisch, rufen Sie englisch gespeicherte Erinnerungen ab.
Die ehrlichen Lucken
Wir glauben an transparentes Engineering. Was Tokyo Brain noch nicht hat:
- Kein multimodales Gedachtnis — nur Text. Bilder, Audio, Video in der Roadmap.
- Kein benutzerubergreifender Wissensaustausch — jeder Mandant vollstandig isoliert. Foderation geplant.
- Begrenzte Emotionserkennung — musterbasiert, nicht LLM-basiert. Gut fur bekannte Muster, verpasst neuartige emotionale Kontexte.
- Kleine Nutzerbasis — Alpha-Phase. System funktioniert, Benchmark beweist es, brauchen mehr Validierung.
- Recall-Latenz — ~5s unter gleichzeitiger Last (CPU-gebundenes Embedding, einzelne EC2-Instanz, keine GPU). Verarbeitungstiefe uber Geschwindigkeit optimiert.
Architektur-Zusammenfassung
Store Path:
Input → Sanitizer → Emotional Salience → Fact Extraction
→ BGE-m3 Embedding → ChromaDB → Entropy Monitor
Recall Path:
Query → Expansion → Entity Link → Temporal Parse
→ Multi-Collection Search → Curated Boost → Time Decay
→ Emotional Boost → Temporal Filter → Re-rank → Dedup
Background:
3:00 AM — Night Cycle v2 (scan for issues)
3:10 AM — MRA Engine (three-persona debate + auto-resolve)
Real-time — Entropy Monitor (knowledge stability tracking)
Ausprobieren
pip install tokyo-brain
from tokyo_brain import TokyoBrain
brain = TokyoBrain(api_key="your-key")
# Store a memory
brain.store("Oscar rode his bike for the first time today")
# Recall with full 10-layer pipeline
results = brain.recall("What happened with Oscar recently?")
# → Returns Oscar's bike ride (salience: 0.85), not your server logs
Drei Zeilen, um Ihrer KI einen Hippocampus, eine Amygdala und ein Unterbewusstsein zu geben.
Verwenden Sie bereits LangChain? Zwei-Zeilen-Tausch:
# Before (goldfish memory): from langchain.memory import ConversationBufferMemory memory = ConversationBufferMemory() # After (10-layer brain with subconscious): from tokyo_brain.langchain import TokyoBrainMemory memory = TokyoBrainMemory(api_key="tb-...") # That's it. Your chain code stays exactly the same.
Funktioniert auch als Retriever fur RAG-Chains und als ChatMessageHistory fur persistente Sitzungen.
API-Dokumentation: api.tokyobrain.ai | PyPI: tokyo-brain 0.1.0