Dois meses atrás, cada produto de memória IA que testamos tinha o mesmo problema: armazenavam tudo e não entendiam nada. Abordagens RAG padrão empurram cada fragmento de conversa igualmente para um banco de dados vetorial, levando à inflação de contexto e degradação do raciocínio ao longo do tempo. Criptografia e isolamento de inquilinos frequentemente não estavam disponíveis, não eram documentados ou eram pouco claros.
Então construímos o Tokyo Brain do zero. Em 12 horas, ele foi de 46% para 83.8% no LongMemEval — a pontuação mais alta que observamos em nossas execuções de reprodução até agora.
Mas esta não é uma história sobre uma pontuação de benchmark. É sobre o que acontece quando você para de construir bancos de dados e começa a construir cérebros.
O benchmark que começou tudo
LongMemEval é um conjunto de testes de 500 perguntas projetado por pesquisadores para avaliar a memória de longo prazo em sistemas de IA. Ele mede seis dimensões cognitivas:
| Dimensão | Tokyo Brain | O que testa |
|---|---|---|
| Preferência de sessão única | 100% (30/30) | "O que este usuário prefere?" |
| Raciocínio temporal | 89% (118/133) | "Quando X aconteceu em relação a Y?" |
| Atualização de conhecimento | 82% (64/78) | "X mudou de A para B — qual é o atual?" |
| Multi-sessão | 82% (109/133) | "Em 5 conversas, o que é consistente?" |
| Sessão única - usuário | 80% (56/70) | "O que o usuário disse sobre si mesmo?" |
| Sessão única - assistente | 75% (42/56) | "O que a IA recomendou?" |
Para referência, quando executamos o mesmo benchmark contra outros sistemas usando suas configurações padrão:
| Sistema | Score | Custo de inferência | |
|---|---|---|---|
| 1 | Tokyo Brain | 83.8% | $0 |
| 2 | Supermemory | 81.6% | $$$ |
| 3 | Zep | 71.2% | $$ |
| 4 | Mem0 | 49.0% | $ |
Pontuações de nossas execuções internas de reprodução usando configurações padrão. Planejamos disponibilizar o harness de avaliação como open-source para que a comunidade possa verificar e reproduzir estes resultados.
Executamos as 500 perguntas completas, não um subconjunto selecionado. Os dados de teste são do HuggingFace. Metodologia: cada pergunta é uma consulta de recall contra memórias previamente armazenadas de conversas sintéticas multi-sessão.
Por que 83.8%? Porque copiamos o cérebro
A maioria dos sistemas de memória IA são bancos de dados vetoriais glorificados. Armazenar embedding, recuperar por similaridade de cosseno, pronto. É como construir uma biblioteca sem bibliotecário — você pode encontrar livros por cor, mas não por significado.
A arquitetura do Tokyo Brain é modelada segundo as estruturas biológicas que fazem a memória humana realmente funcionar:
Biological Brain Tokyo Brain ───────────────────── ──────────────────────────────── Prefrontal Cortex Redis Hot Memory (working memory) (bounded short-term working set) Hippocampus Fact Extraction → answer_cards (sleep consolidation) (distill noise into facts) Synaptic Network Query Expansion + Entity Link (associative recall) (one word activates a web) Synaptic Pruning Time Decay (healthy forgetting) (old info loses priority) Amygdala Emotional Salience Scoring (emotional tagging) (family > server configs) Default Mode Network Night Cycle + MRA Engine (subconscious) (self-heals while you sleep)
Esses módulos são implementados como componentes separados em nosso sistema de produção. Deixe-me guiá-lo pelos mais importantes.
A jornada: de 46% a 83.8%
O pipeline de recall de 10 camadas
Quando você consulta o Tokyo Brain, sua pergunta não apenas atinge um banco de dados vetorial. Ela passa por 10 estágios de processamento — cada um projetado para resolver um modo de falha específico que observamos durante os testes de benchmark. Sem chamadas LLM. Sem modelos de re-ranking caros. Engenharia pura de recuperação.
Cada camada foi adicionada para corrigir uma falha específica do benchmark. O efeito combinado: de 46% para 83.8% em uma única sessão de desenvolvimento.
A matemática: utilidade esperada, não força bruta
A maioria dos sistemas RAG recupera memórias baseando-se em um único sinal: similaridade semântica. Isso é fundamentalmente falho para cognição complexa — confunde relevância (sobreposição semântica) com utilidade (valor para a tarefa atual).
Por trás do pipeline está um princípio simples inspirado em ideias de utilidade esperada da ciência cognitiva e teoria da decisão — a noção de que a recuperação de memória deve maximizar o valor esperado da informação retornada, não apenas minimizar a distância vetorial:
| Componente | Camada Tokyo Brain | O que faz |
|---|---|---|
| P(relevant) | Query Expansion + Entity Linking | Busca semântica multi-query com resolução de alias |
| V(information) | Curated Boost | Fatos verificados e answer cards priorizados |
| T(freshness) | Time Decay | Memórias mais recentes obtêm scores de distância menores |
| E(emotion) | Emotional Salience | Memórias familiares superam configs de servidor |
O insight chave: recuperação não é um problema de busca — é um problema de alocação de recursos. Dada uma janela de contexto limitada, quais memórias maximizam a utilidade esperada total para a tarefa atual? A maioria dos sistemas para em P (similaridade de cosseno). Alguns adicionam T (recência). Não vimos outro produto que incorpore E (saliência emocional) — pontuando memórias pelo quanto elas importam para você como humano, não apenas pelo quão semanticamente próximas estão da sua consulta.
O subconsciente: Night Cycle + motor MRA
Aqui é onde o Tokyo Brain diverge de todos os outros produtos do mercado.
Todo sistema de memória IA é passivo. Você pergunta, ele recupera. Você não pergunta, ele fica parado. Como uma biblioteca sem bibliotecário — os livros nunca são reorganizados a menos que alguém entre.
O cérebro humano não funciona assim. Sua Rede de Modo Padrão (DMN) ativa quando você está ocioso — durante o sono, devaneios ou no chuveiro. Ela consolida memórias, resolve contradições e às vezes produz momentos "eureka".
Nós construímos o equivalente digital.
Night Cycle v2 (executa diariamente às 3h UTC)
Um script Python que varre toda a base de conhecimento procurando:
- Quase-duplicatas — cartões com >88% de similaridade de embedding, marcados como candidatos a fusão
- Cartões obsoletos — fatos com mais de 30 dias onde informações mais recentes existem, marcados para atualização
- Decisões órfãs — decisões importantes registradas em registros diários mas nunca destiladas em conhecimento permanente
- Cartões lixo — entradas muito curtas, muito longas ou principalmente ruído de formatação
Motor de curiosidade MRA (executa após o Night Cycle)
Quando o Night Cycle encontra problemas, o motor MRA não apenas os sinaliza — ele os debate e resolve usando um tribunal de três personas:
Em nossas execuções iniciais de staging, o motor MRA fundiu cartões duplicados automaticamente com sucesso, sinalizou casos ambíguos para revisão humana e — notavelmente — a persona Skeptic identificou corretamente uma alucinação em uma fusão proposta, prevenindo que dados incorretos fossem gravados.
O reflexo de ansiedade: monitor de entropia
O Night Cycle executa em um cronograma cron — um despertador digital. Mas cérebros humanos não esperam alarmes. Eles percebem quando algo parece errado em tempo real.
O Monitor de Entropia dá ao Tokyo Brain essa capacidade. Ele rastreia cada operação de armazenamento de memória em uma janela deslizante de 20 minutos. Quando detecta múltiplos armazenamentos atingindo o mesmo cluster de tópicos (>=4 na janela), dispara um alerta:
{
"status": "ELEVATED",
"topic": "brain|pricing|tokyo|update|version",
"count": 5,
"message": "Pricing strategy is changing rapidly. Consider consolidating."
}
Isso não é um cron job. É um sistema nervoso em tempo real. O cérebro fica "ansioso" quando o conhecimento se torna instável — exatamente como estresse epistêmico biológico.
O córtex emocional
A peça final: nem todas as memórias devem ser tratadas igualmente.
Quando uma memória é armazenada, o Tokyo Brain calcula automaticamente um Score de Saliência Emocional (0.0 - 1.0):
"Oscar rode a bike for the first time. The whole family celebrated. Mom cried." → salience: 0.85 "Caddy upgraded from 2.10 to 2.11.2. Reverse proxy restarted on port 443." → salience: 0.30 "Decided Tokyo Brain's business model: free software + paid memory. This is our North Star strategy." → salience: 0.75
Durante o recall, memórias com saliência > 0.5 recebem um boost de distância de até 30%. A primeira vez que seu filho andou de bicicleta sempre terá ranking superior a uma mudança de configuração do servidor.
A pontuação usa heurísticas baseadas em padrões (menções familiares, marcos, decisões estratégicas) — sem necessidade de LLM, zero latência em cada operação de armazenamento.
O Córtex Criptográfico
Cada modificação de memória é assinada criptograficamente e registrada. Isso cria uma trilha de auditoria à prova de adulteração que ninguém — incluindo nós — pode alterar após o fato.
- SHA-256 Hash — cada memória recebe uma impressão digital de conteúdo única no momento da escrita
- Assinatura Digital — cada mutação é assinada com uma chave de carteira compatível com Ethereum
- Cadeia de Evidências — histórico completo de mutações: quem mudou o quê, quando e por quê
- Verificação — qualquer pessoa pode verificar a integridade de uma memória via o endpoint
/verify
Isso significa: se um agente de IA tomou uma decisão baseada em uma memória há seis meses, você pode provar que essa memória não foi adulterada desde então. Pronto para auditoria empresarial.
O Triângulo de Segurança
Três mecanismos de segurança codificados que nenhuma pontuação de confiança pode substituir:
Memória Multimodal
Tokyo Brain não armazena apenas texto. Ele aceita cargas sensoriais unificadas — texto, características de áudio e contexto visual em uma única memória:
{
"sensory_inputs": {
"text_transcript": "I'm fine, I'll handle it.",
"audio_features": { "speaker_id": "Chia", "tone": "exhausted" },
"visual_features": { "scene_context": "messy_living_room", "facial_expression": "fatigued" }
}
}
O sistema sintetiza uma narrativa multimodal para embedding: [Speaker: Chia] [Tone: exhausted] [Visual: messy_living_room] Spoken: "I'm fine" — permitindo recuperação por emoção, cena ou falante, não apenas por palavras-chave.
Ecossistema de Frameworks
Adaptadores plug-and-play para os quatro principais frameworks de agentes de IA. Apenas duas linhas para trocar:
# LangChain from tokyo_brain.langchain import TokyoBrainMemory # CrewAI from tokyo_brain.crewai import TokyoBrainCrewMemory # AutoGen from tokyo_brain.autogen import TokyoBrainAutoGenMemory # LlamaIndex from tokyo_brain.llamaindex import TokyoBrainRetriever
Seu código de agente existente permanece exatamente o mesmo. Você apenas troca o backend de memória.
O que não fazemos (e por que isso importa)
- Sem abordagem "armazene tudo". O Sanitizer integrado filtra conteúdo de baixo sinal antes do armazenamento. Acreditamos que filtragem agressiva produz melhor recall do que acumular tudo.
- Sem dependência de fornecedor. BYOK (Bring Your Own Key) — use seu próprio provedor de LLM. Cobramos apenas pela infraestrutura de memória, nunca por computação.
- Criptografia por padrão. Criptografia AES-256-GCM em repouso. Isolamento de chaves por inquilino. Isso foi um requisito de design desde o primeiro dia.
- Sem viés apenas inglês. Embeddings BGE-m3 + suporte para mais de 50 idiomas. Consulte em chinês, recupere memórias armazenadas em inglês.
As lacunas honestas
Acreditamos em engenharia transparente, então aqui está o que o Tokyo Brain ainda não tem:
- Sem memória multimodal — apenas texto. Imagens, áudio e vídeo estão no roadmap.
- Sem compartilhamento de conhecimento entre usuários — cada inquilino é totalmente isolado. Federação está planejada.
- Detecção emocional limitada — baseada em padrões, não em LLM. Funciona bem para padrões conhecidos, falha em contextos emocionais novos.
- Base de usuários pequena — estamos em alpha. O sistema funciona, o benchmark prova isso, mas precisamos de mais validação no mundo real.
- Latência de recall — ~5s sob carga concorrente (embedding limitado por CPU em uma única instância EC2, sem GPU). Otimizamos a profundidade de processamento em vez da velocidade bruta.
Resumo da arquitetura
Store Path:
Input → Sanitizer → Emotional Salience → Fact Extraction
→ BGE-m3 Embedding → ChromaDB → Entropy Monitor
Recall Path:
Query → Expansion → Entity Link → Temporal Parse
→ Multi-Collection Search → Curated Boost → Time Decay
→ Emotional Boost → Temporal Filter → Re-rank → Dedup
Background:
3:00 AM — Night Cycle v2 (scan for issues)
3:10 AM — MRA Engine (three-persona debate + auto-resolve)
Real-time — Entropy Monitor (knowledge stability tracking)
Experimente
pip install tokyo-brain
from tokyo_brain import TokyoBrain
brain = TokyoBrain(api_key="your-key")
# Store a memory
brain.store("Oscar rode his bike for the first time today")
# Recall with full 10-layer pipeline
results = brain.recall("What happened with Oscar recently?")
# → Returns Oscar's bike ride (salience: 0.85), not your server logs
Três linhas para dar à sua IA um hipocampo, uma amígdala e um subconsciente.
Já usa LangChain? Troca de duas linhas:
# Before (goldfish memory): from langchain.memory import ConversationBufferMemory memory = ConversationBufferMemory() # After (10-layer brain with subconscious): from tokyo_brain.langchain import TokyoBrainMemory memory = TokyoBrainMemory(api_key="tb-...") # That's it. Your chain code stays exactly the same.
Também funciona como Retriever para cadeias RAG e como ChatMessageHistory para sessões persistentes.
PyPI: tokyo-brain 0.1.0