Due mesi fa, ogni prodotto di memoria AI che abbiamo testato aveva lo stesso problema: memorizzavano tutto senza comprendere nulla. Gli approcci RAG standard inseriscono ogni frammento di conversazione in un database vettoriale in modo uniforme, causando sovraccarico del contesto e degrado del ragionamento nel tempo. La crittografia e l'isolamento dei tenant erano spesso indisponibili, non documentati o poco chiari.
Cosi abbiamo costruito Tokyo Brain da zero. In 12 ore, il punteggio e passato dal 46% all'83,8% su LongMemEval — il punteggio piu alto che abbiamo osservato nelle nostre riproduzioni finora.
Ma questa non e una storia su un punteggio benchmark. E la storia di cosa succede quando smetti di costruire database e inizi a costruire cervelli.
Il Benchmark che ha dato inizio a tutto
LongMemEval e una suite di 500 domande progettata dai ricercatori per valutare la memoria a lungo termine nei sistemi AI. Misura sei dimensioni cognitive:
| Dimensione | Tokyo Brain | Cosa misura |
|---|---|---|
| Preferenza sessione singola | 100% (30/30) | "Cosa preferisce questo utente?" |
| Ragionamento temporale | 89% (118/133) | "Quando e successo X rispetto a Y?" |
| Aggiornamento conoscenze | 82% (64/78) | "X e cambiato da A a B — qual e lo stato attuale?" |
| Multi-sessione | 82% (109/133) | "In 5 conversazioni, cosa e coerente?" |
| Utente sessione singola | 80% (56/70) | "Cosa ha detto l'utente di se stesso?" |
| Assistente sessione singola | 75% (42/56) | "Cosa ha raccomandato l'AI?" |
Come riferimento, quando abbiamo eseguito lo stesso benchmark su altri sistemi usando le loro configurazioni predefinite:
| Sistema | Punteggio | Costo di inferenza | |
|---|---|---|---|
| 1 | Tokyo Brain | 83.8% | $0 |
| 2 | Supermemory | 81.6% | $$$ |
| 3 | Zep | 71.2% | $$ |
| 4 | Mem0 | 49.0% | $ |
Punteggi dalle nostre riproduzioni interne usando configurazioni predefinite. Prevediamo di rendere open source il framework di valutazione cosi la comunita potra verificare e riprodurre questi risultati.
Abbiamo eseguito tutte le 500 domande, non un sottoinsieme selezionato. I dati di test provengono da HuggingFace. Metodologia: ogni domanda e una query di richiamo verso memorie precedentemente memorizzate da conversazioni sintetiche multi-sessione.
Perche 83,8%? Perche abbiamo copiato il cervello
La maggior parte dei sistemi di memoria AI sono database vettoriali glorificati. Memorizza embedding, recupera per similarita coseno, fine. E come costruire una biblioteca senza bibliotecario — puoi trovare libri per colore, ma non per significato.
L'architettura di Tokyo Brain e modellata sulle strutture biologiche che fanno funzionare davvero la memoria umana:
Biological Brain Tokyo Brain ───────────────────── ──────────────────────────────── Prefrontal Cortex Redis Hot Memory (working memory) (bounded short-term working set) Hippocampus Fact Extraction → answer_cards (sleep consolidation) (distill noise into facts) Synaptic Network Query Expansion + Entity Link (associative recall) (one word activates a web) Synaptic Pruning Time Decay (healthy forgetting) (old info loses priority) Amygdala Emotional Salience Scoring (emotional tagging) (family > server configs) Default Mode Network Night Cycle + MRA Engine (subconscious) (self-heals while you sleep)
Questi moduli sono implementati come componenti separati nel nostro sistema di produzione. Vediamo i piu importanti.
Il viaggio: dal 46% all'83,8%
La Pipeline di Richiamo a 10 livelli
Quando interroghi Tokyo Brain, la tua domanda non colpisce semplicemente un database vettoriale. Passa attraverso 10 fasi di elaborazione — ognuna per risolvere una specifica modalita di fallimento. Nessuna chiamata LLM. Nessun modello di re-ranking costoso. Pura ingegneria di recupero.
Ogni livello e stato aggiunto per risolvere un fallimento specifico del benchmark. L'effetto combinato: dal 46% all'83,8% in una singola sessione di sviluppo.
La Matematica: Utilita Attesa, non forza bruta
La maggior parte dei sistemi RAG recupera memorie basandosi su un singolo segnale: similarita semantica. Questo e fondamentalmente difettoso per la cognizione complessa — confonde rilevanza (sovrapposizione semantica) con utilita (valore per il compito attuale).
Dietro la pipeline c'e un principio semplice dalla scienza cognitiva: il recupero della memoria dovrebbe massimizzare il valore atteso delle informazioni restituite, non solo minimizzare la distanza vettoriale:
| Componente | Livello Tokyo Brain | Funzione |
|---|---|---|
| P(relevant) | Query Expansion + Entity Linking | Ricerca semantica multi-query con risoluzione alias |
| V(information) | Curated Boost | Fatti verificati e schede risposta prioritarie |
| T(freshness) | Time Decay | Memorie piu recenti ottengono punteggi di distanza piu bassi |
| E(emotion) | Emotional Salience | Memorie familiari superano configurazioni server |
L'intuizione chiave: il recupero non e un problema di ricerca — e un problema di allocazione risorse. Con una finestra di contesto limitata, quali memorie massimizzano l'utilita attesa totale? La maggior parte dei sistemi si ferma a P (similarita coseno). Alcuni aggiungono T (recenza). Non abbiamo visto nessun altro prodotto che incorpora E (salienza emotiva) — valutare le memorie in base a quanto contano per te come essere umano.
Il Subconscio: Night Cycle + MRA Engine
Qui e dove Tokyo Brain diverge da ogni altro prodotto sul mercato.
Ogni sistema di memoria AI e passivo. Chiedi, recupera. Non chiedi, resta inattivo. Come una biblioteca senza bibliotecario — i libri non vengono mai riorganizzati a meno che qualcuno non entri.
Il cervello umano non funziona cosi. La tua Default Mode Network (DMN) si attiva quando sei inattivo — durante il sonno, sogni ad occhi aperti o sotto la doccia. Consolida le memorie, risolve le contraddizioni e a volte produce momenti "eureka".
Abbiamo costruito l'equivalente digitale.
Night Cycle v2 (eseguito ogni giorno alle 3:00 UTC)
Uno script Python che scansiona l'intera base di conoscenza:
- Quasi-duplicati — schede con >88% di similarita embedding, candidati alla fusione
- Schede obsolete — fatti piu vecchi di 30 giorni dove esistono informazioni piu recenti
- Decisioni orfane — decisioni importanti registrate ma mai distillate in conoscenza permanente
- Schede spazzatura — voci troppo corte, troppo lunghe o principalmente rumore di formattazione
MRA Curiosity Engine (eseguito dopo Night Cycle)
Quando Night Cycle trova problemi, il motore MRA non li segnala soltanto — li dibatte e risolve usando un tribunale a tre personalita:
Nelle nostre esecuzioni iniziali in staging, il motore MRA ha unito automaticamente con successo le schede duplicate, segnalato i casi ambigui per la revisione umana e — aspetto notevole — la personalita Skeptic ha correttamente identificato un'allucinazione in una fusione proposta, impedendo dati errati.
Il Riflesso d'Ansia: Monitor dell'Entropia
Il Night Cycle funziona su programma cron — una sveglia digitale. Ma i cervelli umani non aspettano le sveglie. Notano quando qualcosa non va in tempo reale.
L'Entropy Monitor da a Tokyo Brain questa capacita. Traccia ogni operazione di memorizzazione in una finestra scorrevole di 20 minuti. Quando rileva piu memorizzazioni nello stesso cluster di argomenti (>=4), genera un avviso:
{
"status": "ELEVATED",
"topic": "brain|pricing|tokyo|update|version",
"count": 5,
"message": "Pricing strategy is changing rapidly. Consider consolidating."
}
Questo non e un cron job. E un sistema nervoso in tempo reale. Il cervello diventa "ansioso" quando la conoscenza diventa instabile — esattamente come lo stress epistemico biologico.
La Corteccia Emotiva
L'ultimo pezzo: non tutte le memorie dovrebbero essere trattate allo stesso modo.
Quando una memoria viene memorizzata, Tokyo Brain calcola automaticamente un Punteggio di Salienza Emotiva (0.0 - 1.0):
"Oscar rode a bike for the first time. The whole family celebrated. Mom cried." → salience: 0.85 "Caddy upgraded from 2.10 to 2.11.2. Reverse proxy restarted on port 443." → salience: 0.30 "Decided Tokyo Brain's business model: free software + paid memory. This is our North Star strategy." → salience: 0.75
Durante il richiamo, le memorie con salienza > 0,5 ottengono un boost di distanza fino al 30%. La prima pedalata in bici di tuo figlio superera sempre una modifica alla configurazione del server.
Il punteggio utilizza euristiche basate su pattern (menzioni familiari, traguardi, decisioni strategiche) — nessun LLM necessario, zero latenza.
La Corteccia Crittografica
Ogni modifica della memoria e firmata crittograficamente e registrata. Questo crea una traccia di audit a prova di manomissione che nessuno — noi inclusi — puo alterare dopo il fatto.
- SHA-256 Hash — ogni memoria ottiene un'impronta digitale di contenuto unica al momento della scrittura
- Firma Digitale — ogni mutazione e firmata con una chiave wallet compatibile con Ethereum
- Catena di Prove — storico completo delle mutazioni: chi ha cambiato cosa, quando e perche
- Verifica — chiunque puo verificare l'integrita di una memoria tramite l'endpoint
/verify
Questo significa: se un agente IA ha preso una decisione basata su una memoria sei mesi fa, puoi dimostrare che quella memoria non e stata manomessa da allora. Pronto per l'audit aziendale.
Il Triangolo di Sicurezza
Tre meccanismi di sicurezza codificati che nessun punteggio di fiducia puo sovrascrivere:
Memoria Multimodale
Tokyo Brain non memorizza solo testo. Accetta payload sensoriali unificati — testo, caratteristiche audio e contesto visivo in una singola memoria:
{
"sensory_inputs": {
"text_transcript": "I'm fine, I'll handle it.",
"audio_features": { "speaker_id": "Chia", "tone": "exhausted" },
"visual_features": { "scene_context": "messy_living_room", "facial_expression": "fatigued" }
}
}
Il sistema sintetizza una narrativa multimodale per l'embedding: [Speaker: Chia] [Tone: exhausted] [Visual: messy_living_room] Spoken: "I'm fine" — consentendo il recupero per emozione, scena o parlante, non solo per parole chiave.
Ecosistema di Framework
Adattatori drop-in per i quattro principali framework di agenti IA. Due righe da sostituire:
# LangChain from tokyo_brain.langchain import TokyoBrainMemory # CrewAI from tokyo_brain.crewai import TokyoBrainCrewMemory # AutoGen from tokyo_brain.autogen import TokyoBrainAutoGenMemory # LlamaIndex from tokyo_brain.llamaindex import TokyoBrainRetriever
Il tuo codice agente esistente rimane esattamente lo stesso. Basta sostituire il backend di memoria.
Cosa non facciamo (e perche e importante)
- Nessun approccio "memorizza tutto". Il Sanitizer integrato filtra i contenuti a basso segnale prima della memorizzazione. Il filtraggio aggressivo produce un richiamo migliore.
- Nessun vendor lock-in. BYOK (Bring Your Own Key) — usa il tuo provider LLM. Addebitiamo solo l'infrastruttura di memoria, mai il computing.
- Crittografia di default. AES-256-GCM a riposo. Isolamento delle chiavi per tenant. Requisito di progettazione dal primo giorno.
- Nessun bias solo inglese. Embedding BGE-m3 + supporto per 50+ lingue. Interroga in cinese, recupera memorie in inglese.
Le lacune oneste
Crediamo nell'ingegneria trasparente. Cosa Tokyo Brain non ha ancora:
- Nessuna memoria multimodale — solo testo. Immagini, audio, video nella roadmap.
- Nessuna condivisione di conoscenza tra utenti — ogni tenant completamente isolato. Federazione pianificata.
- Rilevamento emotivo limitato — basato su pattern, non su LLM. Funziona per pattern noti, manca i contesti emotivi inediti.
- Base utenti ridotta — siamo in alpha. Il sistema funziona, il benchmark lo dimostra, ma servono piu validazioni.
- Latenza di richiamo — ~5s sotto carico concorrente (embedding CPU-bound, singola istanza EC2, nessuna GPU). Ottimizzato per profondita su velocita.
Riepilogo dell'Architettura
Store Path:
Input → Sanitizer → Emotional Salience → Fact Extraction
→ BGE-m3 Embedding → ChromaDB → Entropy Monitor
Recall Path:
Query → Expansion → Entity Link → Temporal Parse
→ Multi-Collection Search → Curated Boost → Time Decay
→ Emotional Boost → Temporal Filter → Re-rank → Dedup
Background:
3:00 AM — Night Cycle v2 (scan for issues)
3:10 AM — MRA Engine (three-persona debate + auto-resolve)
Real-time — Entropy Monitor (knowledge stability tracking)
Provalo
pip install tokyo-brain
from tokyo_brain import TokyoBrain
brain = TokyoBrain(api_key="your-key")
# Store a memory
brain.store("Oscar rode his bike for the first time today")
# Recall with full 10-layer pipeline
results = brain.recall("What happened with Oscar recently?")
# → Returns Oscar's bike ride (salience: 0.85), not your server logs
Tre righe per dare alla tua AI un ippocampo, un'amigdala e un subconscio.
Usi gia LangChain? Sostituzione in due righe:
# Before (goldfish memory): from langchain.memory import ConversationBufferMemory memory = ConversationBufferMemory() # After (10-layer brain with subconscious): from tokyo_brain.langchain import TokyoBrainMemory memory = TokyoBrainMemory(api_key="tb-...") # That's it. Your chain code stays exactly the same.
Funziona anche come Retriever per catene RAG e come ChatMessageHistory per sessioni persistenti.
API Docs: api.tokyobrain.ai | PyPI: tokyo-brain 0.1.0