12 Stunden bis zum Unterbewusstsein: Wie wir eine biologisch inspirierte KI-Gedachtnis-Engine gebaut haben

83.8%

LongMemEval Score

Vor zwei Monaten hatte jedes KI-Gedachtnisprodukt, das wir getestet haben, dasselbe Problem: Sie speicherten alles und verstanden nichts. Standard-RAG-Ansatze stopfen jedes Gesprachsfragment gleichwertig in eine Vektordatenbank, was zu Kontext-Aufblahung und verschlechtertem Reasoning uber die Zeit fuhrt. Verschlusselung und Mandantenisolierung waren oft entweder nicht verfugbar, nicht dokumentiert oder unklar.

Also haben wir Tokyo Brain von Grund auf gebaut. In 12 Stunden stieg es von 46% auf 83.8% bei LongMemEval — der hochste Score, den wir in unseren bisherigen Reproduktionslaufen beobachtet haben.

Aber dies ist keine Geschichte uber einen Benchmark-Score. Es ist die Geschichte davon, was passiert, wenn man aufhort Datenbanken zu bauen und anfangt Gehirne zu bauen.

Der Benchmark, der alles ausloste

LongMemEval ist eine von Forschern entwickelte Testsuite mit 500 Fragen zur Bewertung des Langzeitgedachtnisses in KI-Systemen. Sie misst sechs kognitive Dimensionen:

Dimension	Tokyo Brain	Was getestet wird
Einzelsitzung-Praferenz	100% (30/30)	"Was bevorzugt dieser Benutzer?"
Zeitliches Reasoning	89% (118/133)	"Wann geschah X relativ zu Y?"
Wissensaktualisierung	82% (64/78)	"X anderte sich von A zu B — was ist aktuell?"
Multi-Sitzung	82% (109/133)	"Uber 5 Gesprache, was ist konsistent?"
Einzelsitzung-Benutzer	80% (56/70)	"Was sagte der Benutzer uber sich?"
Einzelsitzung-Assistent	75% (42/56)	"Was empfahl die KI?"

Zur Referenz, als wir denselben Benchmark gegen andere Systeme mit deren Standardkonfigurationen ausfuhrten:

	System	Score	Inferenzkosten
1	Tokyo Brain	83.8%	$0
2	Supermemory	81.6%	$$$
3	Zep	71.2%	$$
4	Mem0	49.0%	$

Scores aus unseren internen Reproduktionslaufen mit Standardkonfigurationen. Wir planen, den Evaluierungs-Harness als Open Source zu veroffentlichen, damit die Community diese Ergebnisse verifizieren kann.

Wir haben die vollstandigen 500 Fragen durchlaufen, keine handverlesene Teilmenge. Die Testdaten stammen von HuggingFace. Methodik: Jede Frage ist eine Recall-Abfrage gegen zuvor gespeicherte Erinnerungen aus synthetischen Multi-Sitzungs-Gesprachen.

Warum 83.8%? Weil wir das Gehirn kopiert haben

Die meisten KI-Gedachtnissysteme sind verherrlichte Vektordatenbanken. Embedding speichern, nach Kosinus-Ahnlichkeit abrufen, fertig. Das ist wie eine Bibliothek ohne Bibliothekar — man kann Bucher nach Farbe finden, aber nicht nach Bedeutung.

Die Architektur von Tokyo Brain ist nach den biologischen Strukturen modelliert, die das menschliche Gedachtnis tatsachlich funktionieren lassen:

Biological Brain          Tokyo Brain
─────────────────────     ────────────────────────────────
Prefrontal Cortex         Redis Hot Memory
(working memory)          (bounded short-term working set)

Hippocampus               Fact Extraction → answer_cards
(sleep consolidation)     (distill noise into facts)

Synaptic Network          Query Expansion + Entity Link
(associative recall)      (one word activates a web)

Synaptic Pruning          Time Decay
(healthy forgetting)      (old info loses priority)

Amygdala                  Emotional Salience Scoring
(emotional tagging)       (family > server configs)

Default Mode Network      Night Cycle + MRA Engine
(subconscious)            (self-heals while you sleep)

Diese Module sind als separate Komponenten in unserem Produktionssystem implementiert. Lassen Sie mich Sie durch die wichtigsten fuhren.

Die Reise: Von 46% auf 83.8%

Hour 046%Baseline — rohe semantische Suche

Hour 260%Query Expansion + Entity Linking + Fact Extraction

Hour 468%Time Decay + Dedup + Re-Ranking

Hour 672%Session Decomposition + Preference Boost

Hour 874%Temporal Ordering + Matching-Verbesserungen

Hour 1081%Vollstandige 500-Fragen-Validierung

Hour 1283.8%Finale Optimierungen — 83.8%

Die 10-Schichten-Recall-Pipeline

Wenn Sie Tokyo Brain abfragen, trifft Ihre Frage nicht einfach auf eine Vektordatenbank. Sie durchlauft 10 Verarbeitungsstufen — jede fur einen spezifischen Fehlermodus. Keine LLM-Aufrufe. Keine teuren Re-Ranking-Modelle. Reine Retrieval-Technik.

Layer 1: Query Expansion

Problem: Benutzer fragt "Name des Chefs" aber Erinnerung sagt "Manager: John"

Losung: Jede Abfrage in 4-6 Varianten mit Alias-Maps und Synonymen erweitern

Auswirkung: +10-15% bei Entity-Fragen

Layer 2: Entity Linking

Problem: Dieselbe Person hat mehrere Namen in verschiedenen Sprachen

Losung: 30+ bidirektionale Entity-Zuordnungen

Auswirkung: Sprachubergreifender Recall steigt dramatisch

Layer 3: Temporal Parsing

Problem: "Was haben wir letzte Woche besprochen?" gibt Ergebnisse von vor zwei Monaten

Losung: Zeitausdrucke in Datumsbereiche parsen, unterstutzt Chinesisch

Auswirkung: Zeitliches Reasoning erreichte 89%

Layer 4: Multi-Collection Search

Problem: Antworten verstreut uber answer_cards, Tagesprotokolle und Gesprache

Losung: BGE-m3 Embeddings, gleichzeitige Suche uber alle Sammlungen

Auswirkung: +15-20% Prazision bei Einzelsitzungsfragen

Layer 5: Curated Boost

Problem: Verifizierte Fakten sollten Chat-Logs ubertreffen

Losung: 0.55x Distanz fur kuratierte Antwortkarten (destillierte Fakten > rohe Gesprache)

Auswirkung: Hochwertige Erinnerungen erscheinen konsistent zuerst

Layer 6: Time Decay

Problem: Januar-Preise konkurrieren gleichwertig mit heutigen

Losung: Distanzmultiplikatoren nach Alter — <1 Tag: 0.85x, <7 Tage: 0.90x, <30 Tage: 0.95x

Auswirkung: Wissensaktualisierung erreichte 100% im Test

Layer 7: Emotional Salience

Problem: "Was ist dem Benutzer wichtig?" gibt Serverprotokolle statt Familienmomente

Losung: Automatische Bewertung nach emotionalem Gewicht — Familie (0.85) ubertrifft Serverkonfigs (0.30)

Auswirkung: Erinnerungen mit Salienz > 0.5 erhalten bis zu 30% Distanz-Boost

Layer 8: Temporal Filtering

Problem: "Was war das Erste?" benotigt chronologischen Kontext

Losung: Ergebnisse im Bereich erhalten 0.35x Boost, ausserhalb 1.5x Strafe

Auswirkung: Zeitliches Reasoning erreichte 89%

Layer 9: Sentence-Level Re-Ranking

Problem: Richtiges Dokument gefunden, aber Antwort ist in Satz 7 von 12

Losung: Bigram-Matching mit Praferenz-/Assistenten-Boni, Snippet-Extraktion

Auswirkung: +5-10% bei spezifischer Phrasensuche

Layer 10: Dedup + Cap

Problem: Derselbe Fakt 3x gespeichert verschwendet Ergebnis-Slots

Losung: Sammlungsubergreifende Deduplizierung, Endergebnis: Top 15-20 Erinnerungen

Auswirkung: Sauberere Ergebnisse, maximale Informationsdichte

Jede Schicht wurde hinzugefugt, um einen spezifischen Benchmark-Fehler zu beheben. Der kombinierte Effekt: Von 46% auf 83.8% in einer einzigen Entwicklungssitzung.

Die Mathematik: Erwarteter Nutzen, nicht Brute Force

Die meisten RAG-Systeme rufen Erinnerungen basierend auf einem einzigen Signal ab: semantische Ahnlichkeit. Dies ist grundlegend fehlerhaft fur komplexe Kognition — es verwechselt Relevanz (semantische Uberlappung) mit Nutzen (Wert fur die aktuelle Aufgabe).

Hinter der Pipeline steht ein einfaches Prinzip aus der Kognitionswissenschaft: Gedachtnisabruf sollte den erwarteten Wert der zuruckgegebenen Information maximieren, nicht nur die Vektordistanz minimieren:

Score(memory) = P(relevant) x V(information) x T(freshness) x E(emotion)

Komponente	Tokyo Brain Schicht	Funktion
P(relevant)	Query Expansion + Entity Linking	Multi-Query semantische Suche mit Alias-Auflosung
V(information)	Curated Boost	Verifizierte Fakten und Antwortkarten priorisiert
T(freshness)	Time Decay	Neuere Erinnerungen erhalten niedrigere Distanzwerte
E(emotion)	Emotional Salience	Familienerinnerungen ubertreffen Serverkonfigurationen

Die Schlusselerkenntnis: Retrieval ist kein Suchproblem — es ist ein Ressourcenallokationsproblem. Bei einem begrenzten Kontextfenster, welche Erinnerungen maximieren den gesamten erwarteten Nutzen? Die meisten Systeme horen bei P (Kosinus-Ahnlichkeit) auf. Einige fugen T (Aktualitat) hinzu. Wir haben kein anderes Produkt gesehen, das E (emotionale Salienz) einbezieht — Erinnerungen danach zu bewerten, wie viel sie Ihnen als Mensch bedeuten.

Das Unterbewusstsein: Night Cycle + MRA-Engine

Hier weicht Tokyo Brain von jedem anderen Produkt auf dem Markt ab.

Jedes KI-Gedachtnissystem ist passiv. Sie fragen, es ruft ab. Sie fragen nicht, es sitzt untatig da. Wie eine Bibliothek ohne Bibliothekar — die Bucher werden nie umgeordnet, es sei denn, jemand kommt herein.

Das menschliche Gehirn funktioniert nicht so. Ihr Default Mode Network (DMN) aktiviert sich im Leerlauf — wahrend des Schlafs, beim Tagtraumen oder unter der Dusche. Es konsolidiert Erinnerungen, lost Widerspruche und produziert manchmal "Heureka"-Momente.

Wir haben das digitale Aquivalent gebaut.

Night Cycle v2 (lauft taglich um 3 Uhr UTC)

Ein Python-Skript, das die gesamte Wissensbasis durchsucht:

Beinahe-Duplikate — Karten mit >88% Embedding-Ahnlichkeit, Zusammenfuhrungskandidaten
Veraltete Karten — Fakten alter als 30 Tage, zu denen neuere Informationen existieren
Verwaiste Entscheidungen — wichtige Entscheidungen in Tagesprotokollen, aber nie in permanentes Wissen destilliert
Mull-Karten — Eintrage zu kurz, zu lang oder hauptsachlich Formatierungsrauschen

MRA-Neugier-Engine (lauft nach dem Night Cycle)

Wenn der Night Cycle Probleme findet, markiert die MRA-Engine sie nicht nur — sie debattiert und lost sie mithilfe eines Drei-Personen-Tribunals:

MRA Three-Persona Tribunal

Analyst: "Was sind die faktischen Behauptungen?"

Erstellt eine strukturierte Vergleichstabelle

Synthesizer: "Wie fuhren wir diese zu einer Wahrheit zusammen?"

Schlagt eine vereinheitlichte Karte vor

Skeptic: "Was stimmt nicht mit dieser Zusammenfuhrung?"

Vergibt einen Konfidenz-Score (0-100)

Urteil: >= 85 Konfidenz: auto-ausfuhren | 50-84: fur menschliche Uberprufung markieren | < 50: uberspringen

In unseren ersten Staging-Laufen hat die MRA-Engine erfolgreich doppelte Karten automatisch zusammengefuhrt, mehrdeutige Falle zur menschlichen Uberprufung markiert und — bemerkenswert — die Skeptiker-Persona hat eine Halluzination in einem Merge korrekt identifiziert und fehlerhafte Daten verhindert.

Der Angstreflex: Entropie-Monitor

Der Night Cycle lauft nach Cron-Zeitplan — ein digitaler Wecker. Aber menschliche Gehirne warten nicht auf Alarme. Sie bemerken Probleme in Echtzeit.

Der Entropie-Monitor gibt Tokyo Brain diese Fahigkeit. Er verfolgt jede Speicheroperation in einem 20-Minuten-Fenster. Bei mehreren Speichervorgangen im selben Themencluster (>=4) lost er einen Alarm aus:

{
  "status": "ELEVATED",
  "topic": "brain|pricing|tokyo|update|version",
  "count": 5,
  "message": "Pricing strategy is changing rapidly. Consider consolidating."
}

Das ist kein Cron-Job. Es ist ein Echtzeit-Nervensystem. Das Gehirn wird "angstlich", wenn Wissen instabil wird — genau wie biologischer epistemischer Stress.

Der emotionale Kortex

Das letzte Puzzlestuck: Nicht alle Erinnerungen sollten gleich behandelt werden.

Wenn eine Erinnerung gespeichert wird, berechnet Tokyo Brain automatisch einen Emotionalen Salienz-Score (0.0 - 1.0):

"Oscar rode a bike for the first time.
 The whole family celebrated.
 Mom cried."                                → salience: 0.85

"Caddy upgraded from 2.10 to 2.11.2.
 Reverse proxy restarted on port 443."      → salience: 0.30

"Decided Tokyo Brain's business model:
 free software + paid memory.
 This is our North Star strategy."          → salience: 0.75

Beim Abruf erhalten Erinnerungen mit Salienz > 0.5 einen Distanz-Boost von bis zu 30%. Die erste Fahrradfahrt Ihres Kindes rangiert immer uber einer Serverkonfigurationsanderung.

Das Scoring verwendet musterbasierte Heuristiken (Familienerwähnungen, Meilensteine, strategische Entscheidungen) — kein LLM notig, null Latenz.

Der Kryptographische Kortex

Jede Speicheranderung wird kryptographisch signiert und protokolliert. Dies erstellt einen manipulationssicheren Audit-Trail, den niemand — einschliesslich uns — nachtraglich andern kann.

SHA-256 Hash — jede Erinnerung erhalt einen einzigartigen Inhalts-Fingerabdruck zum Zeitpunkt des Schreibens
Digitale Signatur — jede Mutation wird mit einem Ethereum-kompatiblen Wallet-Schlussel signiert
Beweiskette — vollstandige Mutationshistorie: wer hat was geandert, wann und warum
Verifizierung — jeder kann die Integritat einer Erinnerung uber den /verify-Endpoint verifizieren

Das bedeutet: Wenn ein KI-Agent vor sechs Monaten eine Entscheidung auf Basis einer Erinnerung getroffen hat, konnen Sie beweisen, dass diese Erinnerung seitdem nicht manipuliert wurde. Enterprise-Audit-bereit.

Das Sicherheitsdreieck

Drei hartcodierte Sicherheitsmechanismen, die kein Vertrauensscore uberschreiben kann:

1. Guardian (Das Axiom der sterblichen Seele)

"Absolute Wahrheit und unendliche Berechnung mussen fur immer dienen und durfen niemals die Bewahrung menschlicher emotionaler Bindungen und Wurde uberschreiben."

MRAs 4. Persona — hat bedingungsloses Vetorecht uber jede Wissensanderung, die das System kalter machen wurde.

2. Mitgefuhl-Override

Bei der Aufzeichnung von Fakten uber Familienmitglieder werden harte Bezeichnungen automatisch abgemildert. "Lugen" wird zu "teilt moglicherweise nicht das vollstandige Bild."

Das System versteckt keine Wahrheit — es wahlt, wie es sie mit Empathie prasentiert.

3. Kopilot-Beschrankung

Drei Domanen sind dauerhaft gegen automatische Anderung gesperrt: Identitat, Autoritat und Finanzen.

Die KI schlagt vor. Der Mensch entscheidet. Immer.

Multimodaler Speicher

Tokyo Brain speichert nicht nur Text. Es akzeptiert einheitliche sensorische Payloads — Text, Audio-Merkmale und visuellen Kontext in einer einzigen Erinnerung:

{
  "sensory_inputs": {
    "text_transcript": "I'm fine, I'll handle it.",
    "audio_features": { "speaker_id": "Chia", "tone": "exhausted" },
    "visual_features": { "scene_context": "messy_living_room", "facial_expression": "fatigued" }
  }
}

Das System synthetisiert ein multimodales Narrativ fur das Embedding: [Speaker: Chia] [Tone: exhausted] [Visual: messy_living_room] Spoken: "I'm fine" — ermoglicht Abruf nach Emotion, Szene oder Sprecher, nicht nur nach Schlusselwortern.

Framework-Okosystem

Drop-in-Adapter fur die vier grossen KI-Agenten-Frameworks. Zwei Zeilen zum Austauschen:

# LangChain
from tokyo_brain.langchain import TokyoBrainMemory

# CrewAI
from tokyo_brain.crewai import TokyoBrainCrewMemory

# AutoGen
from tokyo_brain.autogen import TokyoBrainAutoGenMemory

# LlamaIndex
from tokyo_brain.llamaindex import TokyoBrainRetriever

Ihr bestehender Agent-Code bleibt genau gleich. Sie tauschen nur das Speicher-Backend aus.

Was wir nicht tun (und warum das wichtig ist)

Kein "alles speichern"-Ansatz. Der integrierte Sanitizer filtert niedrig-Signal-Inhalte vor der Speicherung. Aggressives Filtern erzeugt besseren Recall als Horten.
Keine Herstellerbindung. BYOK (Bring Your Own Key) — verwenden Sie Ihren eigenen LLM-Anbieter. Wir berechnen nur fur Gedachtnisinfrastruktur, nie fur Compute.
Verschlusselung standardmassig. AES-256-GCM im Ruhezustand. Schlusselisolierung pro Mandant. Designanforderung vom ersten Tag.
Kein Englisch-Bias. BGE-m3 Embeddings + 50+ Sprachen. Fragen Sie auf Chinesisch, rufen Sie englisch gespeicherte Erinnerungen ab.

Die ehrlichen Lucken

Wir glauben an transparentes Engineering. Was Tokyo Brain noch nicht hat:

Kein multimodales Gedachtnis — nur Text. Bilder, Audio, Video in der Roadmap.
Kein benutzerubergreifender Wissensaustausch — jeder Mandant vollstandig isoliert. Foderation geplant.
Begrenzte Emotionserkennung — musterbasiert, nicht LLM-basiert. Gut fur bekannte Muster, verpasst neuartige emotionale Kontexte.
Kleine Nutzerbasis — Alpha-Phase. System funktioniert, Benchmark beweist es, brauchen mehr Validierung.
Recall-Latenz — ~5s unter gleichzeitiger Last (CPU-gebundenes Embedding, einzelne EC2-Instanz, keine GPU). Verarbeitungstiefe uber Geschwindigkeit optimiert.

Architektur-Zusammenfassung

Store Path:
  Input → Sanitizer → Emotional Salience → Fact Extraction
       → BGE-m3 Embedding → ChromaDB → Entropy Monitor

Recall Path:
  Query → Expansion → Entity Link → Temporal Parse
       → Multi-Collection Search → Curated Boost → Time Decay
       → Emotional Boost → Temporal Filter → Re-rank → Dedup

Background:
  3:00 AM — Night Cycle v2 (scan for issues)
  3:10 AM — MRA Engine (three-persona debate + auto-resolve)
  Real-time — Entropy Monitor (knowledge stability tracking)

Ausprobieren

pip install tokyo-brain

from tokyo_brain import TokyoBrain

brain = TokyoBrain(api_key="your-key")

# Store a memory
brain.store("Oscar rode his bike for the first time today")

# Recall with full 10-layer pipeline
results = brain.recall("What happened with Oscar recently?")
# → Returns Oscar's bike ride (salience: 0.85), not your server logs

Drei Zeilen, um Ihrer KI einen Hippocampus, eine Amygdala und ein Unterbewusstsein zu geben.

Verwenden Sie bereits LangChain? Zwei-Zeilen-Tausch:

# Before (goldfish memory):
from langchain.memory import ConversationBufferMemory
memory = ConversationBufferMemory()

# After (10-layer brain with subconscious):
from tokyo_brain.langchain import TokyoBrainMemory
memory = TokyoBrainMemory(api_key="tb-...")
# That's it. Your chain code stays exactly the same.

Funktioniert auch als Retriever fur RAG-Chains und als ChatMessageHistory fur persistente Sitzungen.

API-Dokumentation: api.tokyobrain.ai | PyPI: tokyo-brain 0.1.0

12 Stunden bis zum Unterbewusstsein