12 ore verso il subconscio: come abbiamo costruito un motore di memoria AI ispirato alla biologia

83.8%

Punteggio LongMemEval

Due mesi fa, ogni prodotto di memoria AI che abbiamo testato aveva lo stesso problema: memorizzavano tutto senza comprendere nulla. Gli approcci RAG standard inseriscono ogni frammento di conversazione in un database vettoriale in modo uniforme, causando sovraccarico del contesto e degrado del ragionamento nel tempo. La crittografia e l'isolamento dei tenant erano spesso indisponibili, non documentati o poco chiari.

Cosi abbiamo costruito Tokyo Brain da zero. In 12 ore, il punteggio e passato dal 46% all'83,8% su LongMemEval — il punteggio piu alto che abbiamo osservato nelle nostre riproduzioni finora.

Ma questa non e una storia su un punteggio benchmark. E la storia di cosa succede quando smetti di costruire database e inizi a costruire cervelli.

Il Benchmark che ha dato inizio a tutto

LongMemEval e una suite di 500 domande progettata dai ricercatori per valutare la memoria a lungo termine nei sistemi AI. Misura sei dimensioni cognitive:

Dimensione	Tokyo Brain	Cosa misura
Preferenza sessione singola	100% (30/30)	"Cosa preferisce questo utente?"
Ragionamento temporale	89% (118/133)	"Quando e successo X rispetto a Y?"
Aggiornamento conoscenze	82% (64/78)	"X e cambiato da A a B — qual e lo stato attuale?"
Multi-sessione	82% (109/133)	"In 5 conversazioni, cosa e coerente?"
Utente sessione singola	80% (56/70)	"Cosa ha detto l'utente di se stesso?"
Assistente sessione singola	75% (42/56)	"Cosa ha raccomandato l'AI?"

Come riferimento, quando abbiamo eseguito lo stesso benchmark su altri sistemi usando le loro configurazioni predefinite:

	Sistema	Punteggio	Costo di inferenza
1	Tokyo Brain	83.8%	$0
2	Supermemory	81.6%	$$$
3	Zep	71.2%	$$
4	Mem0	49.0%	$

Punteggi dalle nostre riproduzioni interne usando configurazioni predefinite. Prevediamo di rendere open source il framework di valutazione cosi la comunita potra verificare e riprodurre questi risultati.

Abbiamo eseguito tutte le 500 domande, non un sottoinsieme selezionato. I dati di test provengono da HuggingFace. Metodologia: ogni domanda e una query di richiamo verso memorie precedentemente memorizzate da conversazioni sintetiche multi-sessione.

Perche 83,8%? Perche abbiamo copiato il cervello

La maggior parte dei sistemi di memoria AI sono database vettoriali glorificati. Memorizza embedding, recupera per similarita coseno, fine. E come costruire una biblioteca senza bibliotecario — puoi trovare libri per colore, ma non per significato.

L'architettura di Tokyo Brain e modellata sulle strutture biologiche che fanno funzionare davvero la memoria umana:

Biological Brain          Tokyo Brain
─────────────────────     ────────────────────────────────
Prefrontal Cortex         Redis Hot Memory
(working memory)          (bounded short-term working set)

Hippocampus               Fact Extraction → answer_cards
(sleep consolidation)     (distill noise into facts)

Synaptic Network          Query Expansion + Entity Link
(associative recall)      (one word activates a web)

Synaptic Pruning          Time Decay
(healthy forgetting)      (old info loses priority)

Amygdala                  Emotional Salience Scoring
(emotional tagging)       (family > server configs)

Default Mode Network      Night Cycle + MRA Engine
(subconscious)            (self-heals while you sleep)

Questi moduli sono implementati come componenti separati nel nostro sistema di produzione. Vediamo i piu importanti.

Il viaggio: dal 46% all'83,8%

Hour 046%Baseline — ricerca semantica grezza

Hour 260%Query Expansion + Entity Linking + Fact Extraction

Hour 468%Time Decay + Dedup + Re-Ranking

Hour 672%Session Decomposition + Preference Boost

Hour 874%Temporal Ordering + miglioramenti del Matching

Hour 1081%Validazione completa delle 500 domande

Hour 1283.8%Ottimizzazioni finali — 83.8%

La Pipeline di Richiamo a 10 livelli

Quando interroghi Tokyo Brain, la tua domanda non colpisce semplicemente un database vettoriale. Passa attraverso 10 fasi di elaborazione — ognuna per risolvere una specifica modalita di fallimento. Nessuna chiamata LLM. Nessun modello di re-ranking costoso. Pura ingegneria di recupero.

Layer 1: Query Expansion

Problema: L'utente chiede "nome del capo" ma la memoria dice "Manager: John"

Soluzione: Espandere ogni query in 4-6 varianti con mappe di alias e sinonimi

Impatto: +10-15% sulle domande sulle entita

Layer 2: Entity Linking

Problema: Stessa persona ha piu nomi in diverse lingue

Soluzione: 30+ mappature di entita bidirezionali

Impatto: Il richiamo multilingue migliora drasticamente

Layer 3: Temporal Parsing

Problema: "Di cosa abbiamo parlato la settimana scorsa?" restituisce risultati di due mesi prima

Soluzione: Analizzare le espressioni temporali in intervalli di date, supporta il cinese

Impatto: Il ragionamento temporale ha raggiunto l'89%

Layer 4: Multi-Collection Search

Problema: Risposte disperse tra answer_cards, registri giornalieri e conversazioni

Soluzione: Embedding BGE-m3, ricerca simultanea in tutte le collezioni

Impatto: +15-20% di precisione sulle domande a sessione singola

Layer 5: Curated Boost

Problema: I fatti verificati dovrebbero superare i log di chat

Soluzione: Distanza 0.55x per le schede risposta curate (fatti distillati > conversazioni grezze)

Impatto: Le memorie di alto valore emergono costantemente per prime

Layer 6: Time Decay

Problema: Il prezzo di gennaio compete alla pari con quello di oggi

Soluzione: Moltiplicatori di distanza per eta — <1 giorno: 0.85x, <7 giorni: 0.90x, <30 giorni: 0.95x

Impatto: L'aggiornamento delle conoscenze ha raggiunto il 100% nei test

Layer 7: Emotional Salience

Problema: "Cosa e importante per l'utente?" restituisce log del server invece di momenti familiari

Soluzione: Punteggio automatico per peso emotivo — famiglia (0.85) supera configurazioni server (0.30)

Impatto: Memorie con salienza > 0.5 ottengono fino al 30% di boost di distanza

Layer 8: Temporal Filtering

Problema: "Qual e stata la prima cosa?" richiede contesto cronologico

Soluzione: Risultati nell'intervallo ottengono boost 0.35x, fuori intervallo penalita 1.5x

Impatto: Il ragionamento temporale ha raggiunto l'89%

Layer 9: Sentence-Level Re-Ranking

Problema: Documento corretto trovato, ma la risposta e nella frase 7 di 12

Soluzione: Matching di bigrammi con bonus preferenza/assistente, estrazione di snippet

Impatto: +5-10% nel recupero di frasi specifiche

Layer 10: Dedup + Cap

Problema: Stesso fatto memorizzato 3 volte spreca slot di risultati

Soluzione: Deduplicazione tra collezioni, risultato finale: top 15-20 memorie

Impatto: Risultati piu puliti, massima densita informativa

Ogni livello e stato aggiunto per risolvere un fallimento specifico del benchmark. L'effetto combinato: dal 46% all'83,8% in una singola sessione di sviluppo.

La Matematica: Utilita Attesa, non forza bruta

La maggior parte dei sistemi RAG recupera memorie basandosi su un singolo segnale: similarita semantica. Questo e fondamentalmente difettoso per la cognizione complessa — confonde rilevanza (sovrapposizione semantica) con utilita (valore per il compito attuale).

Dietro la pipeline c'e un principio semplice dalla scienza cognitiva: il recupero della memoria dovrebbe massimizzare il valore atteso delle informazioni restituite, non solo minimizzare la distanza vettoriale:

Score(memory) = P(relevant) x V(information) x T(freshness) x E(emotion)

Componente	Livello Tokyo Brain	Funzione
P(relevant)	Query Expansion + Entity Linking	Ricerca semantica multi-query con risoluzione alias
V(information)	Curated Boost	Fatti verificati e schede risposta prioritarie
T(freshness)	Time Decay	Memorie piu recenti ottengono punteggi di distanza piu bassi
E(emotion)	Emotional Salience	Memorie familiari superano configurazioni server

L'intuizione chiave: il recupero non e un problema di ricerca — e un problema di allocazione risorse. Con una finestra di contesto limitata, quali memorie massimizzano l'utilita attesa totale? La maggior parte dei sistemi si ferma a P (similarita coseno). Alcuni aggiungono T (recenza). Non abbiamo visto nessun altro prodotto che incorpora E (salienza emotiva) — valutare le memorie in base a quanto contano per te come essere umano.

Il Subconscio: Night Cycle + MRA Engine

Qui e dove Tokyo Brain diverge da ogni altro prodotto sul mercato.

Ogni sistema di memoria AI e passivo. Chiedi, recupera. Non chiedi, resta inattivo. Come una biblioteca senza bibliotecario — i libri non vengono mai riorganizzati a meno che qualcuno non entri.

Il cervello umano non funziona cosi. La tua Default Mode Network (DMN) si attiva quando sei inattivo — durante il sonno, sogni ad occhi aperti o sotto la doccia. Consolida le memorie, risolve le contraddizioni e a volte produce momenti "eureka".

Abbiamo costruito l'equivalente digitale.

Night Cycle v2 (eseguito ogni giorno alle 3:00 UTC)

Uno script Python che scansiona l'intera base di conoscenza:

Quasi-duplicati — schede con >88% di similarita embedding, candidati alla fusione
Schede obsolete — fatti piu vecchi di 30 giorni dove esistono informazioni piu recenti
Decisioni orfane — decisioni importanti registrate ma mai distillate in conoscenza permanente
Schede spazzatura — voci troppo corte, troppo lunghe o principalmente rumore di formattazione

MRA Curiosity Engine (eseguito dopo Night Cycle)

Quando Night Cycle trova problemi, il motore MRA non li segnala soltanto — li dibatte e risolve usando un tribunale a tre personalita:

MRA Three-Persona Tribunal

Analyst: "Quali sono le affermazioni fattuali in ciascuno?"

Produce una tabella di confronto strutturata

Synthesizer: "Come fondiamo questi in un'unica verita?"

Propone una scheda unificata

Skeptic: "Cosa c'e di sbagliato in questa fusione?"

Assegna un punteggio di fiducia (0-100)

Verdetto: >= 85 fiducia: auto-esecuzione | 50-84: segnalare per revisione umana | < 50: saltare, chiedere all'umano

Nelle nostre esecuzioni iniziali in staging, il motore MRA ha unito automaticamente con successo le schede duplicate, segnalato i casi ambigui per la revisione umana e — aspetto notevole — la personalita Skeptic ha correttamente identificato un'allucinazione in una fusione proposta, impedendo dati errati.

Il Riflesso d'Ansia: Monitor dell'Entropia

Il Night Cycle funziona su programma cron — una sveglia digitale. Ma i cervelli umani non aspettano le sveglie. Notano quando qualcosa non va in tempo reale.

L'Entropy Monitor da a Tokyo Brain questa capacita. Traccia ogni operazione di memorizzazione in una finestra scorrevole di 20 minuti. Quando rileva piu memorizzazioni nello stesso cluster di argomenti (>=4), genera un avviso:

{
  "status": "ELEVATED",
  "topic": "brain|pricing|tokyo|update|version",
  "count": 5,
  "message": "Pricing strategy is changing rapidly. Consider consolidating."
}

Questo non e un cron job. E un sistema nervoso in tempo reale. Il cervello diventa "ansioso" quando la conoscenza diventa instabile — esattamente come lo stress epistemico biologico.

La Corteccia Emotiva

L'ultimo pezzo: non tutte le memorie dovrebbero essere trattate allo stesso modo.

Quando una memoria viene memorizzata, Tokyo Brain calcola automaticamente un Punteggio di Salienza Emotiva (0.0 - 1.0):

"Oscar rode a bike for the first time.
 The whole family celebrated.
 Mom cried."                                → salience: 0.85

"Caddy upgraded from 2.10 to 2.11.2.
 Reverse proxy restarted on port 443."      → salience: 0.30

"Decided Tokyo Brain's business model:
 free software + paid memory.
 This is our North Star strategy."          → salience: 0.75

Durante il richiamo, le memorie con salienza > 0,5 ottengono un boost di distanza fino al 30%. La prima pedalata in bici di tuo figlio superera sempre una modifica alla configurazione del server.

Il punteggio utilizza euristiche basate su pattern (menzioni familiari, traguardi, decisioni strategiche) — nessun LLM necessario, zero latenza.

La Corteccia Crittografica

Ogni modifica della memoria e firmata crittograficamente e registrata. Questo crea una traccia di audit a prova di manomissione che nessuno — noi inclusi — puo alterare dopo il fatto.

SHA-256 Hash — ogni memoria ottiene un'impronta digitale di contenuto unica al momento della scrittura
Firma Digitale — ogni mutazione e firmata con una chiave wallet compatibile con Ethereum
Catena di Prove — storico completo delle mutazioni: chi ha cambiato cosa, quando e perche
Verifica — chiunque puo verificare l'integrita di una memoria tramite l'endpoint /verify

Questo significa: se un agente IA ha preso una decisione basata su una memoria sei mesi fa, puoi dimostrare che quella memoria non e stata manomessa da allora. Pronto per l'audit aziendale.

Il Triangolo di Sicurezza

Tre meccanismi di sicurezza codificati che nessun punteggio di fiducia puo sovrascrivere:

1. Guardiano (L'Assioma dell'Anima Mortale)

"La verita assoluta e il calcolo infinito devono servire per sempre, e mai sovrascrivere, la preservazione dei legami emotivi umani e della dignita."

La 4a persona di MRA — ha potere di veto incondizionato su qualsiasi cambiamento di conoscenza che renderebbe il sistema piu freddo.

2. Override di Compassione

Quando si registrano fatti sui membri della famiglia, le etichette dure vengono automaticamente ammorbidite. "Mentire" diventa "forse non sta condividendo il quadro completo."

Il sistema non nasconde la verita — sceglie come presentarla con empatia.

3. Vincolo del Copilota

Tre domini sono permanentemente bloccati dalla modifica automatica: identita, autorita e finanze.

L'IA suggerisce. L'umano decide. Sempre.

Memoria Multimodale

Tokyo Brain non memorizza solo testo. Accetta payload sensoriali unificati — testo, caratteristiche audio e contesto visivo in una singola memoria:

{
  "sensory_inputs": {
    "text_transcript": "I'm fine, I'll handle it.",
    "audio_features": { "speaker_id": "Chia", "tone": "exhausted" },
    "visual_features": { "scene_context": "messy_living_room", "facial_expression": "fatigued" }
  }
}

Il sistema sintetizza una narrativa multimodale per l'embedding: [Speaker: Chia] [Tone: exhausted] [Visual: messy_living_room] Spoken: "I'm fine" — consentendo il recupero per emozione, scena o parlante, non solo per parole chiave.

Ecosistema di Framework

Adattatori drop-in per i quattro principali framework di agenti IA. Due righe da sostituire:

# LangChain
from tokyo_brain.langchain import TokyoBrainMemory

# CrewAI
from tokyo_brain.crewai import TokyoBrainCrewMemory

# AutoGen
from tokyo_brain.autogen import TokyoBrainAutoGenMemory

# LlamaIndex
from tokyo_brain.llamaindex import TokyoBrainRetriever

Il tuo codice agente esistente rimane esattamente lo stesso. Basta sostituire il backend di memoria.

Cosa non facciamo (e perche e importante)

Nessun approccio "memorizza tutto". Il Sanitizer integrato filtra i contenuti a basso segnale prima della memorizzazione. Il filtraggio aggressivo produce un richiamo migliore.
Nessun vendor lock-in. BYOK (Bring Your Own Key) — usa il tuo provider LLM. Addebitiamo solo l'infrastruttura di memoria, mai il computing.
Crittografia di default. AES-256-GCM a riposo. Isolamento delle chiavi per tenant. Requisito di progettazione dal primo giorno.
Nessun bias solo inglese. Embedding BGE-m3 + supporto per 50+ lingue. Interroga in cinese, recupera memorie in inglese.

Le lacune oneste

Crediamo nell'ingegneria trasparente. Cosa Tokyo Brain non ha ancora:

Nessuna memoria multimodale — solo testo. Immagini, audio, video nella roadmap.
Nessuna condivisione di conoscenza tra utenti — ogni tenant completamente isolato. Federazione pianificata.
Rilevamento emotivo limitato — basato su pattern, non su LLM. Funziona per pattern noti, manca i contesti emotivi inediti.
Base utenti ridotta — siamo in alpha. Il sistema funziona, il benchmark lo dimostra, ma servono piu validazioni.
Latenza di richiamo — ~5s sotto carico concorrente (embedding CPU-bound, singola istanza EC2, nessuna GPU). Ottimizzato per profondita su velocita.

Riepilogo dell'Architettura

Store Path:
  Input → Sanitizer → Emotional Salience → Fact Extraction
       → BGE-m3 Embedding → ChromaDB → Entropy Monitor

Recall Path:
  Query → Expansion → Entity Link → Temporal Parse
       → Multi-Collection Search → Curated Boost → Time Decay
       → Emotional Boost → Temporal Filter → Re-rank → Dedup

Background:
  3:00 AM — Night Cycle v2 (scan for issues)
  3:10 AM — MRA Engine (three-persona debate + auto-resolve)
  Real-time — Entropy Monitor (knowledge stability tracking)

Provalo

pip install tokyo-brain

from tokyo_brain import TokyoBrain

brain = TokyoBrain(api_key="your-key")

# Store a memory
brain.store("Oscar rode his bike for the first time today")

# Recall with full 10-layer pipeline
results = brain.recall("What happened with Oscar recently?")
# → Returns Oscar's bike ride (salience: 0.85), not your server logs

Tre righe per dare alla tua AI un ippocampo, un'amigdala e un subconscio.

Usi gia LangChain? Sostituzione in due righe:

# Before (goldfish memory):
from langchain.memory import ConversationBufferMemory
memory = ConversationBufferMemory()

# After (10-layer brain with subconscious):
from tokyo_brain.langchain import TokyoBrainMemory
memory = TokyoBrainMemory(api_key="tb-...")
# That's it. Your chain code stays exactly the same.

Funziona anche come Retriever per catene RAG e come ChatMessageHistory per sessioni persistenti.

API Docs: api.tokyobrain.ai | PyPI: tokyo-brain 0.1.0

12 ore verso il subconscio