Benchmark LongMemEval da 500 domande

12 ore verso il subconscio

La tua AI ricorda tutto. La nostra dimentica di proposito. Come abbiamo costruito un motore di memoria ispirato alla biologia che e passato dal 46% all'83,8% in una singola sessione di sviluppo.

6 aprile 2026 — Tokyo Brain Engineering

83.8%
Punteggio LongMemEval

Due mesi fa, ogni prodotto di memoria AI che abbiamo testato aveva lo stesso problema: memorizzavano tutto senza comprendere nulla. Gli approcci RAG standard inseriscono ogni frammento di conversazione in un database vettoriale in modo uniforme, causando sovraccarico del contesto e degrado del ragionamento nel tempo. La crittografia e l'isolamento dei tenant erano spesso indisponibili, non documentati o poco chiari.

Cosi abbiamo costruito Tokyo Brain da zero. In 12 ore, il punteggio e passato dal 46% all'83,8% su LongMemEval — il punteggio piu alto che abbiamo osservato nelle nostre riproduzioni finora.

Ma questa non e una storia su un punteggio benchmark. E la storia di cosa succede quando smetti di costruire database e inizi a costruire cervelli.

Il Benchmark che ha dato inizio a tutto

LongMemEval e una suite di 500 domande progettata dai ricercatori per valutare la memoria a lungo termine nei sistemi AI. Misura sei dimensioni cognitive:

DimensioneTokyo BrainCosa misura
Preferenza sessione singola100% (30/30)"Cosa preferisce questo utente?"
Ragionamento temporale89% (118/133)"Quando e successo X rispetto a Y?"
Aggiornamento conoscenze82% (64/78)"X e cambiato da A a B — qual e lo stato attuale?"
Multi-sessione82% (109/133)"In 5 conversazioni, cosa e coerente?"
Utente sessione singola80% (56/70)"Cosa ha detto l'utente di se stesso?"
Assistente sessione singola75% (42/56)"Cosa ha raccomandato l'AI?"

Come riferimento, quando abbiamo eseguito lo stesso benchmark su altri sistemi usando le loro configurazioni predefinite:

SistemaPunteggioCosto di inferenza
1Tokyo Brain83.8%$0
2Supermemory81.6%$$$
3Zep71.2%$$
4Mem049.0%$

Punteggi dalle nostre riproduzioni interne usando configurazioni predefinite. Prevediamo di rendere open source il framework di valutazione cosi la comunita potra verificare e riprodurre questi risultati.

Abbiamo eseguito tutte le 500 domande, non un sottoinsieme selezionato. I dati di test provengono da HuggingFace. Metodologia: ogni domanda e una query di richiamo verso memorie precedentemente memorizzate da conversazioni sintetiche multi-sessione.

Perche 83,8%? Perche abbiamo copiato il cervello

La maggior parte dei sistemi di memoria AI sono database vettoriali glorificati. Memorizza embedding, recupera per similarita coseno, fine. E come costruire una biblioteca senza bibliotecario — puoi trovare libri per colore, ma non per significato.

L'architettura di Tokyo Brain e modellata sulle strutture biologiche che fanno funzionare davvero la memoria umana:

Biological Brain          Tokyo Brain
─────────────────────     ────────────────────────────────
Prefrontal Cortex         Redis Hot Memory
(working memory)          (bounded short-term working set)

Hippocampus               Fact Extraction → answer_cards
(sleep consolidation)     (distill noise into facts)

Synaptic Network          Query Expansion + Entity Link
(associative recall)      (one word activates a web)

Synaptic Pruning          Time Decay
(healthy forgetting)      (old info loses priority)

Amygdala                  Emotional Salience Scoring
(emotional tagging)       (family > server configs)

Default Mode Network      Night Cycle + MRA Engine
(subconscious)            (self-heals while you sleep)

Questi moduli sono implementati come componenti separati nel nostro sistema di produzione. Vediamo i piu importanti.

Il viaggio: dal 46% all'83,8%

Hour 046%Baseline — ricerca semantica grezza
Hour 260%Query Expansion + Entity Linking + Fact Extraction
Hour 468%Time Decay + Dedup + Re-Ranking
Hour 672%Session Decomposition + Preference Boost
Hour 874%Temporal Ordering + miglioramenti del Matching
Hour 1081%Validazione completa delle 500 domande
Hour 1283.8%Ottimizzazioni finali — 83.8%

La Pipeline di Richiamo a 10 livelli

Quando interroghi Tokyo Brain, la tua domanda non colpisce semplicemente un database vettoriale. Passa attraverso 10 fasi di elaborazione — ognuna per risolvere una specifica modalita di fallimento. Nessuna chiamata LLM. Nessun modello di re-ranking costoso. Pura ingegneria di recupero.

Layer 1: Query Expansion
Problema: L'utente chiede "nome del capo" ma la memoria dice "Manager: John"
Soluzione: Espandere ogni query in 4-6 varianti con mappe di alias e sinonimi
Impatto: +10-15% sulle domande sulle entita
Layer 2: Entity Linking
Problema: Stessa persona ha piu nomi in diverse lingue
Soluzione: 30+ mappature di entita bidirezionali
Impatto: Il richiamo multilingue migliora drasticamente
Layer 3: Temporal Parsing
Problema: "Di cosa abbiamo parlato la settimana scorsa?" restituisce risultati di due mesi prima
Soluzione: Analizzare le espressioni temporali in intervalli di date, supporta il cinese
Impatto: Il ragionamento temporale ha raggiunto l'89%
Layer 4: Multi-Collection Search
Problema: Risposte disperse tra answer_cards, registri giornalieri e conversazioni
Soluzione: Embedding BGE-m3, ricerca simultanea in tutte le collezioni
Impatto: +15-20% di precisione sulle domande a sessione singola
Layer 5: Curated Boost
Problema: I fatti verificati dovrebbero superare i log di chat
Soluzione: Distanza 0.55x per le schede risposta curate (fatti distillati > conversazioni grezze)
Impatto: Le memorie di alto valore emergono costantemente per prime
Layer 6: Time Decay
Problema: Il prezzo di gennaio compete alla pari con quello di oggi
Soluzione: Moltiplicatori di distanza per eta — <1 giorno: 0.85x, <7 giorni: 0.90x, <30 giorni: 0.95x
Impatto: L'aggiornamento delle conoscenze ha raggiunto il 100% nei test
Layer 7: Emotional Salience
Problema: "Cosa e importante per l'utente?" restituisce log del server invece di momenti familiari
Soluzione: Punteggio automatico per peso emotivo — famiglia (0.85) supera configurazioni server (0.30)
Impatto: Memorie con salienza > 0.5 ottengono fino al 30% di boost di distanza
Layer 8: Temporal Filtering
Problema: "Qual e stata la prima cosa?" richiede contesto cronologico
Soluzione: Risultati nell'intervallo ottengono boost 0.35x, fuori intervallo penalita 1.5x
Impatto: Il ragionamento temporale ha raggiunto l'89%
Layer 9: Sentence-Level Re-Ranking
Problema: Documento corretto trovato, ma la risposta e nella frase 7 di 12
Soluzione: Matching di bigrammi con bonus preferenza/assistente, estrazione di snippet
Impatto: +5-10% nel recupero di frasi specifiche
Layer 10: Dedup + Cap
Problema: Stesso fatto memorizzato 3 volte spreca slot di risultati
Soluzione: Deduplicazione tra collezioni, risultato finale: top 15-20 memorie
Impatto: Risultati piu puliti, massima densita informativa

Ogni livello e stato aggiunto per risolvere un fallimento specifico del benchmark. L'effetto combinato: dal 46% all'83,8% in una singola sessione di sviluppo.

La Matematica: Utilita Attesa, non forza bruta

La maggior parte dei sistemi RAG recupera memorie basandosi su un singolo segnale: similarita semantica. Questo e fondamentalmente difettoso per la cognizione complessa — confonde rilevanza (sovrapposizione semantica) con utilita (valore per il compito attuale).

Dietro la pipeline c'e un principio semplice dalla scienza cognitiva: il recupero della memoria dovrebbe massimizzare il valore atteso delle informazioni restituite, non solo minimizzare la distanza vettoriale:

Score(memory) = P(relevant) x V(information) x T(freshness) x E(emotion)
ComponenteLivello Tokyo BrainFunzione
P(relevant)Query Expansion + Entity LinkingRicerca semantica multi-query con risoluzione alias
V(information)Curated BoostFatti verificati e schede risposta prioritarie
T(freshness)Time DecayMemorie piu recenti ottengono punteggi di distanza piu bassi
E(emotion)Emotional SalienceMemorie familiari superano configurazioni server

L'intuizione chiave: il recupero non e un problema di ricerca — e un problema di allocazione risorse. Con una finestra di contesto limitata, quali memorie massimizzano l'utilita attesa totale? La maggior parte dei sistemi si ferma a P (similarita coseno). Alcuni aggiungono T (recenza). Non abbiamo visto nessun altro prodotto che incorpora E (salienza emotiva) — valutare le memorie in base a quanto contano per te come essere umano.

Il Subconscio: Night Cycle + MRA Engine

Qui e dove Tokyo Brain diverge da ogni altro prodotto sul mercato.

Ogni sistema di memoria AI e passivo. Chiedi, recupera. Non chiedi, resta inattivo. Come una biblioteca senza bibliotecario — i libri non vengono mai riorganizzati a meno che qualcuno non entri.

Il cervello umano non funziona cosi. La tua Default Mode Network (DMN) si attiva quando sei inattivo — durante il sonno, sogni ad occhi aperti o sotto la doccia. Consolida le memorie, risolve le contraddizioni e a volte produce momenti "eureka".

Abbiamo costruito l'equivalente digitale.

Night Cycle v2 (eseguito ogni giorno alle 3:00 UTC)

Uno script Python che scansiona l'intera base di conoscenza:

MRA Curiosity Engine (eseguito dopo Night Cycle)

Quando Night Cycle trova problemi, il motore MRA non li segnala soltanto — li dibatte e risolve usando un tribunale a tre personalita:

MRA Three-Persona Tribunal
Analyst: "Quali sono le affermazioni fattuali in ciascuno?"
Produce una tabella di confronto strutturata
Synthesizer: "Come fondiamo questi in un'unica verita?"
Propone una scheda unificata
Skeptic: "Cosa c'e di sbagliato in questa fusione?"
Assegna un punteggio di fiducia (0-100)
Verdetto: >= 85 fiducia: auto-esecuzione | 50-84: segnalare per revisione umana | < 50: saltare, chiedere all'umano

Nelle nostre esecuzioni iniziali in staging, il motore MRA ha unito automaticamente con successo le schede duplicate, segnalato i casi ambigui per la revisione umana e — aspetto notevole — la personalita Skeptic ha correttamente identificato un'allucinazione in una fusione proposta, impedendo dati errati.

Il Riflesso d'Ansia: Monitor dell'Entropia

Il Night Cycle funziona su programma cron — una sveglia digitale. Ma i cervelli umani non aspettano le sveglie. Notano quando qualcosa non va in tempo reale.

L'Entropy Monitor da a Tokyo Brain questa capacita. Traccia ogni operazione di memorizzazione in una finestra scorrevole di 20 minuti. Quando rileva piu memorizzazioni nello stesso cluster di argomenti (>=4), genera un avviso:

{
  "status": "ELEVATED",
  "topic": "brain|pricing|tokyo|update|version",
  "count": 5,
  "message": "Pricing strategy is changing rapidly. Consider consolidating."
}

Questo non e un cron job. E un sistema nervoso in tempo reale. Il cervello diventa "ansioso" quando la conoscenza diventa instabile — esattamente come lo stress epistemico biologico.

La Corteccia Emotiva

L'ultimo pezzo: non tutte le memorie dovrebbero essere trattate allo stesso modo.

Quando una memoria viene memorizzata, Tokyo Brain calcola automaticamente un Punteggio di Salienza Emotiva (0.0 - 1.0):

"Oscar rode a bike for the first time.
 The whole family celebrated.
 Mom cried."                                → salience: 0.85

"Caddy upgraded from 2.10 to 2.11.2.
 Reverse proxy restarted on port 443."      → salience: 0.30

"Decided Tokyo Brain's business model:
 free software + paid memory.
 This is our North Star strategy."          → salience: 0.75

Durante il richiamo, le memorie con salienza > 0,5 ottengono un boost di distanza fino al 30%. La prima pedalata in bici di tuo figlio superera sempre una modifica alla configurazione del server.

Il punteggio utilizza euristiche basate su pattern (menzioni familiari, traguardi, decisioni strategiche) — nessun LLM necessario, zero latenza.

La Corteccia Crittografica

Ogni modifica della memoria e firmata crittograficamente e registrata. Questo crea una traccia di audit a prova di manomissione che nessuno — noi inclusi — puo alterare dopo il fatto.

Questo significa: se un agente IA ha preso una decisione basata su una memoria sei mesi fa, puoi dimostrare che quella memoria non e stata manomessa da allora. Pronto per l'audit aziendale.

Il Triangolo di Sicurezza

Tre meccanismi di sicurezza codificati che nessun punteggio di fiducia puo sovrascrivere:

1. Guardiano (L'Assioma dell'Anima Mortale)
"La verita assoluta e il calcolo infinito devono servire per sempre, e mai sovrascrivere, la preservazione dei legami emotivi umani e della dignita."
La 4a persona di MRA — ha potere di veto incondizionato su qualsiasi cambiamento di conoscenza che renderebbe il sistema piu freddo.
2. Override di Compassione
Quando si registrano fatti sui membri della famiglia, le etichette dure vengono automaticamente ammorbidite. "Mentire" diventa "forse non sta condividendo il quadro completo."
Il sistema non nasconde la verita — sceglie come presentarla con empatia.
3. Vincolo del Copilota
Tre domini sono permanentemente bloccati dalla modifica automatica: identita, autorita e finanze.
L'IA suggerisce. L'umano decide. Sempre.

Memoria Multimodale

Tokyo Brain non memorizza solo testo. Accetta payload sensoriali unificati — testo, caratteristiche audio e contesto visivo in una singola memoria:

{
  "sensory_inputs": {
    "text_transcript": "I'm fine, I'll handle it.",
    "audio_features": { "speaker_id": "Chia", "tone": "exhausted" },
    "visual_features": { "scene_context": "messy_living_room", "facial_expression": "fatigued" }
  }
}

Il sistema sintetizza una narrativa multimodale per l'embedding: [Speaker: Chia] [Tone: exhausted] [Visual: messy_living_room] Spoken: "I'm fine" — consentendo il recupero per emozione, scena o parlante, non solo per parole chiave.

Ecosistema di Framework

Adattatori drop-in per i quattro principali framework di agenti IA. Due righe da sostituire:

# LangChain
from tokyo_brain.langchain import TokyoBrainMemory

# CrewAI
from tokyo_brain.crewai import TokyoBrainCrewMemory

# AutoGen
from tokyo_brain.autogen import TokyoBrainAutoGenMemory

# LlamaIndex
from tokyo_brain.llamaindex import TokyoBrainRetriever

Il tuo codice agente esistente rimane esattamente lo stesso. Basta sostituire il backend di memoria.

Cosa non facciamo (e perche e importante)

Le lacune oneste

Crediamo nell'ingegneria trasparente. Cosa Tokyo Brain non ha ancora:

  1. Nessuna memoria multimodale — solo testo. Immagini, audio, video nella roadmap.
  2. Nessuna condivisione di conoscenza tra utenti — ogni tenant completamente isolato. Federazione pianificata.
  3. Rilevamento emotivo limitato — basato su pattern, non su LLM. Funziona per pattern noti, manca i contesti emotivi inediti.
  4. Base utenti ridotta — siamo in alpha. Il sistema funziona, il benchmark lo dimostra, ma servono piu validazioni.
  5. Latenza di richiamo — ~5s sotto carico concorrente (embedding CPU-bound, singola istanza EC2, nessuna GPU). Ottimizzato per profondita su velocita.

Riepilogo dell'Architettura

Store Path:
  Input → Sanitizer → Emotional Salience → Fact Extraction
       → BGE-m3 Embedding → ChromaDB → Entropy Monitor

Recall Path:
  Query → Expansion → Entity Link → Temporal Parse
       → Multi-Collection Search → Curated Boost → Time Decay
       → Emotional Boost → Temporal Filter → Re-rank → Dedup

Background:
  3:00 AM — Night Cycle v2 (scan for issues)
  3:10 AM — MRA Engine (three-persona debate + auto-resolve)
  Real-time — Entropy Monitor (knowledge stability tracking)

Provalo

pip install tokyo-brain
from tokyo_brain import TokyoBrain

brain = TokyoBrain(api_key="your-key")

# Store a memory
brain.store("Oscar rode his bike for the first time today")

# Recall with full 10-layer pipeline
results = brain.recall("What happened with Oscar recently?")
# → Returns Oscar's bike ride (salience: 0.85), not your server logs

Tre righe per dare alla tua AI un ippocampo, un'amigdala e un subconscio.

Usi gia LangChain? Sostituzione in due righe:

# Before (goldfish memory):
from langchain.memory import ConversationBufferMemory
memory = ConversationBufferMemory()

# After (10-layer brain with subconscious):
from tokyo_brain.langchain import TokyoBrainMemory
memory = TokyoBrainMemory(api_key="tb-...")
# That's it. Your chain code stays exactly the same.

Funziona anche come Retriever per catene RAG e come ChatMessageHistory per sessioni persistenti.

API Docs: api.tokyobrain.ai | PyPI: tokyo-brain 0.1.0

Pronto a dare memoria alla tua AI?

Siamo in Alpha. Chiavi aperte per i primi 100 sviluppatori.

Piano gratuito disponibile. Nessuna carta di credito richiesta.

Inizia gratisUnisciti alla community