Benchmark LongMemEval 500 questions

12 heures vers le subconscient

Votre IA se souvient de tout. La nôtre oublie volontairement. Comment nous avons construit un moteur de mémoire inspiré de la biologie qui est passé de 46% à 83.8% en une seule session de développement.

6 avril 2026 — Tokyo Brain Engineering

83.8%
Score LongMemEval

Il y a deux mois, chaque produit de mémoire IA que nous avons testé avait le même problème : ils stockaient tout et ne comprenaient rien. Les approches RAG standard entassent chaque fragment de conversation dans une base de données vectorielle de manière égale, entraînant une inflation du contexte et une dégradation du raisonnement au fil du temps. Le chiffrement et l'isolation des locataires étaient souvent indisponibles, non documentés ou flous.

Alors nous avons construit Tokyo Brain à partir de zéro. En 12 heures, il est passé de 46% à 83.8% sur LongMemEval — le score le plus élevé que nous ayons observé dans nos exécutions de reproduction jusqu'à présent.

Mais ce n'est pas une histoire de score de benchmark. C'est l'histoire de ce qui se passe quand on arrête de construire des bases de données et qu'on commence à construire des cerveaux.

Le benchmark qui a tout déclenché

LongMemEval est une suite de tests de 500 questions conçue par des chercheurs pour évaluer la mémoire à long terme dans les systèmes d'IA. Elle mesure six dimensions cognitives :

DimensionTokyo BrainCe qu'elle teste
Préférence en session unique100% (30/30)« Que préfère cet utilisateur ? »
Raisonnement temporel89% (118/133)« Quand X s'est-il produit par rapport à Y ? »
Mise à jour des connaissances82% (64/78)« X est passé de A à B — quel est l'état actuel ? »
Multi-session82% (109/133)« Sur 5 conversations, qu'est-ce qui est cohérent ? »
Session unique - utilisateur80% (56/70)« Qu'a dit l'utilisateur sur lui-même ? »
Session unique - assistant75% (42/56)« Qu'a recommandé l'IA ? »

Pour référence, quand nous avons exécuté le même benchmark sur d'autres systèmes avec leurs configurations par défaut :

SystèmeScoreCoût d'inférence
1Tokyo Brain83.8%$0
2Supermemory81.6%$$$
3Zep71.2%$$
4Mem049.0%$

Scores issus de nos exécutions internes de reproduction avec configurations par défaut. Nous prévoyons de publier en open-source le harnais d'évaluation afin que la communauté puisse vérifier et reproduire ces résultats.

Nous avons exécuté les 500 questions complètes, pas un sous-ensemble trié sur le volet. Les données de test proviennent de HuggingFace. Méthodologie : chaque question est une requête de rappel contre des souvenirs précédemment stockés à partir de conversations synthétiques multi-sessions.

Pourquoi 83.8% ? Parce que nous avons copié le cerveau

La plupart des systèmes de mémoire IA sont des bases de données vectorielles glorifiées. Stocker un embedding, récupérer par similarité cosinus, terminé. C'est comme construire une bibliothèque sans bibliothécaire — vous pouvez trouver des livres par couleur, mais pas par sens.

L'architecture de Tokyo Brain est modelée d'après les structures biologiques qui font fonctionner la mémoire humaine :

Biological Brain          Tokyo Brain
─────────────────────     ────────────────────────────────
Prefrontal Cortex         Redis Hot Memory
(working memory)          (bounded short-term working set)

Hippocampus               Fact Extraction → answer_cards
(sleep consolidation)     (distill noise into facts)

Synaptic Network          Query Expansion + Entity Link
(associative recall)      (one word activates a web)

Synaptic Pruning          Time Decay
(healthy forgetting)      (old info loses priority)

Amygdala                  Emotional Salience Scoring
(emotional tagging)       (family > server configs)

Default Mode Network      Night Cycle + MRA Engine
(subconscious)            (self-heals while you sleep)

Ces modules sont implémentés comme des composants séparés dans notre système de production. Laissez-moi vous guider à travers les plus importants.

Le parcours : de 46% à 83.8%

Hour 046%Baseline — recherche sémantique brute
Hour 260%Query Expansion + Entity Linking + Fact Extraction
Hour 468%Time Decay + Dedup + Re-Ranking
Hour 672%Session Decomposition + Preference Boost
Hour 874%Temporal Ordering + améliorations du Matching
Hour 1081%Validation complète des 500 questions
Hour 1283.8%Optimisations finales — 83.8%

Le pipeline de rappel à 10 couches

Quand vous interrogez Tokyo Brain, votre question ne frappe pas simplement une base de données vectorielle. Elle passe par 10 étapes de traitement — chacune conçue pour résoudre un mode de défaillance spécifique observé pendant les tests de benchmark. Pas d'appels LLM. Pas de modèles de re-ranking coûteux. Du pur engineering de récupération.

Layer 1 : Query Expansion
Problème : L'utilisateur demande « nom du patron » mais la mémoire contient « Manager: John »
Solution : Étendre chaque requête en 4-6 variantes avec des mappings d'alias et synonymes
Impact : +10-15% sur les questions d'entités
Layer 2 : Entity Linking
Problème : La même personne a plusieurs noms dans différentes langues
Solution : 30+ mappings d'entités bidirectionnels
Impact : Le rappel multilingue augmente considérablement
Layer 3 : Temporal Parsing
Problème : « Qu'avons-nous discuté la semaine dernière ? » renvoie des résultats d'il y a deux mois
Solution : Parser les expressions temporelles en plages de dates, supporte le chinois
Impact : Le raisonnement temporel a atteint 89%
Layer 4 : Multi-Collection Search
Problème : Réponses dispersées entre answer_cards, registres quotidiens et conversations
Solution : Embeddings BGE-m3, recherche simultanée dans toutes les collections
Impact : +15-20% de précision sur les questions de session unique
Layer 5 : Curated Boost
Problème : Les faits vérifiés devraient surclasser les logs de chat
Solution : Distance 0.55x pour les answer cards curatées (faits distillés > conversations brutes)
Impact : Les souvenirs à haute valeur apparaissent systématiquement en premier
Layer 6 : Time Decay
Problème : Les prix de janvier rivalisent également avec ceux d'aujourd'hui
Solution : Multiplicateurs de distance par âge — <1 jour : 0.85x, <7 jours : 0.90x, <30 jours : 0.95x
Impact : La mise à jour des connaissances a atteint 100% en test
Layer 7 : Emotional Salience
Problème : « Qu'est-ce qui compte pour l'utilisateur ? » renvoie des logs serveur au lieu de moments familiaux
Solution : Notation automatique par poids émotionnel — famille (0.85) surclasse configs serveur (0.30)
Impact : Les souvenirs avec saillance > 0.5 obtiennent un boost de distance jusqu'à 30%
Layer 8 : Temporal Filtering
Problème : « Quelle a été la première chose ? » nécessite un contexte chronologique
Solution : Résultats dans la plage obtiennent un boost 0.35x, hors plage une pénalité 1.5x
Impact : Le raisonnement temporel a atteint 89%
Layer 9 : Sentence-Level Re-Ranking
Problème : Bon document trouvé, mais la réponse est dans la phrase 7 sur 12
Solution : Matching par bigramme avec bonus de préférence/assistant, extraction de snippets
Impact : +5-10% sur la recherche de phrases spécifiques
Layer 10 : Dedup + Cap
Problème : Le même fait stocké 3x gaspille des emplacements de résultats
Solution : Déduplication cross-collection, résultat final : top 15-20 souvenirs
Impact : Résultats plus propres, densité d'information maximale

Chaque couche a été ajoutée pour corriger un échec spécifique du benchmark. L'effet combiné : de 46% à 83.8% en une seule session de développement.

Les mathématiques : utilité espérée, pas force brute

La plupart des systèmes RAG récupèrent les souvenirs sur la base d'un signal unique : la similarité sémantique. C'est fondamentalement défaillant pour la cognition complexe — cela confond la pertinence (chevauchement sémantique) avec l'utilité (valeur pour la tâche en cours).

Derrière le pipeline se trouve un principe simple inspiré par les idées d'utilité espérée des sciences cognitives et de la théorie de la décision — la notion que la récupération de mémoire devrait maximiser la valeur espérée de l'information retournée, pas simplement minimiser la distance vectorielle :

Score(memory) = P(relevant) x V(information) x T(freshness) x E(emotion)
ComposantCouche Tokyo BrainCe qu'il fait
P(relevant)Query Expansion + Entity LinkingRecherche sémantique multi-requêtes avec résolution d'alias
V(information)Curated BoostFaits vérifiés et answer cards priorisés
T(freshness)Time DecayLes souvenirs récents obtiennent des scores de distance plus bas
E(emotion)Emotional SalienceLes souvenirs familiaux surclassent les configs serveur

L'intuition clé : la récupération n'est pas un problème de recherche — c'est un problème d'allocation de ressources. Avec une fenêtre de contexte limitée, quels souvenirs maximisent l'utilité espérée totale pour la tâche en cours ? La plupart des systèmes s'arrêtent à P (similarité cosinus). Quelques-uns ajoutent T (récence). Nous n'avons pas vu d'autre produit qui intègre E (saillance émotionnelle) — scorer les souvenirs selon combien ils comptent pour vous en tant qu'humain, pas seulement selon leur proximité sémantique avec votre requête.

Le subconscient : Night Cycle + moteur MRA

C'est ici que Tokyo Brain diverge de tous les autres produits du marché.

Chaque système de mémoire IA est passif. Vous demandez, il récupère. Vous ne demandez pas, il reste inactif. Comme une bibliothèque sans bibliothécaire — les livres ne sont jamais réorganisés à moins que quelqu'un n'entre.

Le cerveau humain ne fonctionne pas ainsi. Votre Réseau du Mode par Défaut (DMN) s'active quand vous êtes inactif — pendant le sommeil, la rêverie ou la douche. Il consolide les souvenirs, résout les contradictions et produit parfois des moments « eurêka ».

Nous avons construit l'équivalent numérique.

Night Cycle v2 (s'exécute quotidiennement à 3h UTC)

Un script Python qui scanne toute la base de connaissances à la recherche de :

Moteur de curiosité MRA (s'exécute après le Night Cycle)

Quand le Night Cycle trouve des problèmes, le moteur MRA ne les signale pas simplement — il les débat et les résout en utilisant un tribunal à trois personnalités :

MRA Three-Persona Tribunal
Analyst : « Quelles sont les affirmations factuelles dans chacun ? »
Produit une table de comparaison structurée
Synthesizer : « Comment fusionner ces éléments en une seule vérité ? »
Propose une carte unifiée
Skeptic : « Quel est le problème avec cette fusion ? »
Attribue un score de confiance (0-100)
Verdict : >= 85 confiance : exécution automatique | 50-84 : marqué pour révision humaine | < 50 : passer, demander à l'humain

Dans nos exécutions initiales de staging, le moteur MRA a réussi à fusionner automatiquement des cartes en double, a signalé les cas ambigus pour révision humaine et — notamment — la personnalité Skeptic a correctement identifié une hallucination dans une proposition de fusion, empêchant l'écriture de données erronées.

Le réflexe d'anxiété : moniteur d'entropie

Le Night Cycle s'exécute selon un planning cron — un réveil numérique. Mais les cerveaux humains n'attendent pas les alarmes. Ils remarquent quand quelque chose ne va pas en temps réel.

Le Moniteur d'Entropie donne cette capacité à Tokyo Brain. Il suit chaque opération de stockage de mémoire dans une fenêtre glissante de 20 minutes. Quand il détecte plusieurs stockages touchant le même cluster de sujets (>=4 dans la fenêtre), il déclenche une alerte :

{
  "status": "ELEVATED",
  "topic": "brain|pricing|tokyo|update|version",
  "count": 5,
  "message": "Pricing strategy is changing rapidly. Consider consolidating."
}

Ce n'est pas un job cron. C'est un système nerveux en temps réel. Le cerveau devient « anxieux » quand les connaissances deviennent instables — exactement comme le stress épistémique biologique.

Le cortex émotionnel

La dernière pièce : tous les souvenirs ne doivent pas être traités de la même façon.

Quand un souvenir est stocké, Tokyo Brain calcule automatiquement un score de saillance émotionnelle (0.0 - 1.0) :

"Oscar rode a bike for the first time.
 The whole family celebrated.
 Mom cried."                                → salience: 0.85

"Caddy upgraded from 2.10 to 2.11.2.
 Reverse proxy restarted on port 443."      → salience: 0.30

"Decided Tokyo Brain's business model:
 free software + paid memory.
 This is our North Star strategy."          → salience: 0.75

Lors du rappel, les souvenirs avec une saillance > 0.5 obtiennent un boost de distance allant jusqu'à 30%. La première fois que votre enfant fait du vélo surclassera toujours un changement de configuration serveur.

Le scoring utilise des heuristiques basées sur des patterns (mentions familiales, jalons, décisions stratégiques) — pas besoin de LLM, zéro latence sur chaque opération de stockage.

Le Cortex Cryptographique

Chaque modification de mémoire est signée cryptographiquement et enregistrée. Cela crée une piste d'audit inviolable que personne — y compris nous — ne peut modifier après coup.

Cela signifie : si un agent IA a pris une décision basée sur une mémoire il y a six mois, vous pouvez prouver que cette mémoire n'a pas été falsifiée depuis. Prêt pour l'audit d'entreprise.

Le Triangle de Sécurité

Trois mécanismes de sécurité codés en dur qu'aucun score de confiance ne peut outrepasser :

1. Gardien (L'Axiome de l'Âme Mortelle)
« La vérité absolue et le calcul infini doivent servir à jamais, et ne jamais outrepasser, la préservation des liens émotionnels humains et de la dignité. »
Le 4ème persona de MRA — dispose d'un droit de veto inconditionnel sur tout changement de connaissance qui rendrait le système plus froid.
2. Override de Compassion
Lors de l'enregistrement de faits sur les membres de la famille, les étiquettes dures sont automatiquement adoucies. « Mentir » devient « ne partage peut-être pas l'image complète ».
Le système ne cache pas la vérité — il choisit comment la présenter avec empathie.
3. Contrainte de Copilote
Trois domaines sont verrouillés en permanence contre la modification automatique : identité, autorité et finances.
L'IA suggère. L'humain décide. Toujours.

Mémoire Multimodale

Tokyo Brain ne stocke pas que du texte. Il accepte des charges sensorielles unifiées — texte, caractéristiques audio et contexte visuel dans une seule mémoire :

{
  "sensory_inputs": {
    "text_transcript": "I'm fine, I'll handle it.",
    "audio_features": { "speaker_id": "Chia", "tone": "exhausted" },
    "visual_features": { "scene_context": "messy_living_room", "facial_expression": "fatigued" }
  }
}

Le système synthétise un récit multimodal pour l'embedding : [Speaker: Chia] [Tone: exhausted] [Visual: messy_living_room] Spoken: "I'm fine" — permettant la recherche par émotion, scène ou locuteur, pas seulement par mots-clés.

Écosystème de Frameworks

Adaptateurs plug-and-play pour les quatre principaux frameworks d'agents IA. Deux lignes à échanger :

# LangChain
from tokyo_brain.langchain import TokyoBrainMemory

# CrewAI
from tokyo_brain.crewai import TokyoBrainCrewMemory

# AutoGen
from tokyo_brain.autogen import TokyoBrainAutoGenMemory

# LlamaIndex
from tokyo_brain.llamaindex import TokyoBrainRetriever

Votre code d'agent existant reste exactement le même. Vous échangez simplement le backend de mémoire.

Ce que nous ne faisons pas (et pourquoi c'est important)

Les lacunes honnêtes

Nous croyons en l'ingénierie transparente, voici donc ce que Tokyo Brain n'a pas encore :

  1. Pas de mémoire multimodale — texte uniquement. Images, audio et vidéo sont dans la feuille de route.
  2. Pas de partage de connaissances entre utilisateurs — chaque locataire est entièrement isolé. La fédération est prévue.
  3. Détection émotionnelle limitée — basée sur des patterns, pas sur un LLM. Fonctionne bien pour les patterns connus, manque les contextes émotionnels nouveaux.
  4. Petite base d'utilisateurs — nous sommes en alpha. Le système fonctionne, le benchmark le prouve, mais nous avons besoin de plus de validation en conditions réelles.
  5. Latence de rappel — ~5s sous charge concurrente (embedding limité par le CPU sur une seule instance EC2, pas de GPU). Nous avons optimisé la profondeur de traitement plutôt que la vitesse brute.

Résumé de l'architecture

Store Path:
  Input → Sanitizer → Emotional Salience → Fact Extraction
       → BGE-m3 Embedding → ChromaDB → Entropy Monitor

Recall Path:
  Query → Expansion → Entity Link → Temporal Parse
       → Multi-Collection Search → Curated Boost → Time Decay
       → Emotional Boost → Temporal Filter → Re-rank → Dedup

Background:
  3:00 AM — Night Cycle v2 (scan for issues)
  3:10 AM — MRA Engine (three-persona debate + auto-resolve)
  Real-time — Entropy Monitor (knowledge stability tracking)

Essayez-le

pip install tokyo-brain
from tokyo_brain import TokyoBrain

brain = TokyoBrain(api_key="your-key")

# Store a memory
brain.store("Oscar rode his bike for the first time today")

# Recall with full 10-layer pipeline
results = brain.recall("What happened with Oscar recently?")
# → Returns Oscar's bike ride (salience: 0.85), not your server logs

Trois lignes pour donner à votre IA un hippocampe, une amygdale et un subconscient.

Vous utilisez déjà LangChain ? Échange en deux lignes :

# Before (goldfish memory):
from langchain.memory import ConversationBufferMemory
memory = ConversationBufferMemory()

# After (10-layer brain with subconscious):
from tokyo_brain.langchain import TokyoBrainMemory
memory = TokyoBrainMemory(api_key="tb-...")
# That's it. Your chain code stays exactly the same.

Fonctionne également comme Retriever pour les chaînes RAG et comme ChatMessageHistory pour les sessions persistantes.

PyPI : tokyo-brain 0.1.0

Prêt à donner une mémoire à votre IA ?

Nous sommes actuellement en Alpha. Ouverture des clés pour les 100 premiers développeurs.

Niveau gratuit disponible. Aucune carte de crédit requise.

Commencer gratuitement Rejoindre la communauté