12 Horas até o Subconsciente: Como Construímos um Motor de Memória IA Inspirado na Biologia

83.8%

Score LongMemEval

Dois meses atrás, cada produto de memória IA que testamos tinha o mesmo problema: armazenavam tudo e não entendiam nada. Abordagens RAG padrão empurram cada fragmento de conversa igualmente para um banco de dados vetorial, levando à inflação de contexto e degradação do raciocínio ao longo do tempo. Criptografia e isolamento de inquilinos frequentemente não estavam disponíveis, não eram documentados ou eram pouco claros.

Então construímos o Tokyo Brain do zero. Em 12 horas, ele foi de 46% para 83.8% no LongMemEval — a pontuação mais alta que observamos em nossas execuções de reprodução até agora.

Mas esta não é uma história sobre uma pontuação de benchmark. É sobre o que acontece quando você para de construir bancos de dados e começa a construir cérebros.

O benchmark que começou tudo

LongMemEval é um conjunto de testes de 500 perguntas projetado por pesquisadores para avaliar a memória de longo prazo em sistemas de IA. Ele mede seis dimensões cognitivas:

Dimensão	Tokyo Brain	O que testa
Preferência de sessão única	100% (30/30)	"O que este usuário prefere?"
Raciocínio temporal	89% (118/133)	"Quando X aconteceu em relação a Y?"
Atualização de conhecimento	82% (64/78)	"X mudou de A para B — qual é o atual?"
Multi-sessão	82% (109/133)	"Em 5 conversas, o que é consistente?"
Sessão única - usuário	80% (56/70)	"O que o usuário disse sobre si mesmo?"
Sessão única - assistente	75% (42/56)	"O que a IA recomendou?"

Para referência, quando executamos o mesmo benchmark contra outros sistemas usando suas configurações padrão:

	Sistema	Score	Custo de inferência
1	Tokyo Brain	83.8%	$0
2	Supermemory	81.6%	$$$
3	Zep	71.2%	$$
4	Mem0	49.0%	$

Pontuações de nossas execuções internas de reprodução usando configurações padrão. Planejamos disponibilizar o harness de avaliação como open-source para que a comunidade possa verificar e reproduzir estes resultados.

Executamos as 500 perguntas completas, não um subconjunto selecionado. Os dados de teste são do HuggingFace. Metodologia: cada pergunta é uma consulta de recall contra memórias previamente armazenadas de conversas sintéticas multi-sessão.

Por que 83.8%? Porque copiamos o cérebro

A maioria dos sistemas de memória IA são bancos de dados vetoriais glorificados. Armazenar embedding, recuperar por similaridade de cosseno, pronto. É como construir uma biblioteca sem bibliotecário — você pode encontrar livros por cor, mas não por significado.

A arquitetura do Tokyo Brain é modelada segundo as estruturas biológicas que fazem a memória humana realmente funcionar:

Biological Brain          Tokyo Brain
─────────────────────     ────────────────────────────────
Prefrontal Cortex         Redis Hot Memory
(working memory)          (bounded short-term working set)

Hippocampus               Fact Extraction → answer_cards
(sleep consolidation)     (distill noise into facts)

Synaptic Network          Query Expansion + Entity Link
(associative recall)      (one word activates a web)

Synaptic Pruning          Time Decay
(healthy forgetting)      (old info loses priority)

Amygdala                  Emotional Salience Scoring
(emotional tagging)       (family > server configs)

Default Mode Network      Night Cycle + MRA Engine
(subconscious)            (self-heals while you sleep)

Esses módulos são implementados como componentes separados em nosso sistema de produção. Deixe-me guiá-lo pelos mais importantes.

A jornada: de 46% a 83.8%

Hour 046%Baseline — busca semântica bruta

Hour 260%Query Expansion + Entity Linking + Fact Extraction

Hour 468%Time Decay + Dedup + Re-Ranking

Hour 672%Session Decomposition + Preference Boost

Hour 874%Temporal Ordering + melhorias de Matching

Hour 1081%Validação completa das 500 perguntas

Hour 1283.8%Otimizações finais — 83.8%

O pipeline de recall de 10 camadas

Quando você consulta o Tokyo Brain, sua pergunta não apenas atinge um banco de dados vetorial. Ela passa por 10 estágios de processamento — cada um projetado para resolver um modo de falha específico que observamos durante os testes de benchmark. Sem chamadas LLM. Sem modelos de re-ranking caros. Engenharia pura de recuperação.

Layer 1: Query Expansion

Problema: Usuário pergunta "nome do chefe" mas a memória contém "Manager: John"

Solução: Expandir cada consulta em 4-6 variantes com mapas de alias e sinônimos

Impacto: +10-15% em perguntas de entidades

Layer 2: Entity Linking

Problema: A mesma pessoa tem múltiplos nomes em diferentes idiomas

Solução: 30+ mapeamentos de entidades bidirecionais

Impacto: Recall cross-lingual aumenta dramaticamente

Layer 3: Temporal Parsing

Problema: "O que discutimos semana passada?" retorna resultados de dois meses atrás

Solução: Analisar expressões temporais em faixas de datas, suporta chinês

Impacto: Raciocínio temporal atingiu 89%

Layer 4: Multi-Collection Search

Problema: Respostas espalhadas entre answer_cards, registros diários e conversas

Solução: Embeddings BGE-m3, busca simultânea em todas as coleções

Impacto: +15-20% precisão em perguntas de sessão única

Layer 5: Curated Boost

Problema: Fatos verificados devem ter prioridade sobre logs de chat

Solução: Distância 0.55x para answer cards curadas (fatos destilados > conversas brutas)

Impacto: Memórias de alto valor aparecem consistentemente primeiro

Layer 6: Time Decay

Problema: Preços de janeiro competem igualmente com os de hoje

Solução: Multiplicadores de distância por idade — <1 dia: 0.85x, <7 dias: 0.90x, <30 dias: 0.95x

Impacto: Atualização de conhecimento atingiu 100% nos testes

Layer 7: Emotional Salience

Problema: "O que importa para o usuário?" retorna logs do servidor em vez de momentos familiares

Solução: Pontuação automática por peso emocional — família (0.85) supera configs de servidor (0.30)

Impacto: Memórias com saliência > 0.5 recebem boost de distância de até 30%

Layer 8: Temporal Filtering

Problema: "Qual foi a primeira coisa?" precisa de contexto cronológico

Solução: Resultados no intervalo recebem boost 0.35x, fora do intervalo penalidade 1.5x

Impacto: Raciocínio temporal atingiu 89%

Layer 9: Sentence-Level Re-Ranking

Problema: Documento correto encontrado, mas a resposta está na frase 7 de 12

Solução: Matching por bigrama com bônus de preferência/assistente, extração de snippets

Impacto: +5-10% na recuperação de frases específicas

Layer 10: Dedup + Cap

Problema: Mesmo fato armazenado 3x desperdiça slots de resultado

Solução: Deduplicação cross-collection, resultado final: top 15-20 memórias

Impacto: Resultados mais limpos, densidade máxima de informação

Cada camada foi adicionada para corrigir uma falha específica do benchmark. O efeito combinado: de 46% para 83.8% em uma única sessão de desenvolvimento.

A matemática: utilidade esperada, não força bruta

A maioria dos sistemas RAG recupera memórias baseando-se em um único sinal: similaridade semântica. Isso é fundamentalmente falho para cognição complexa — confunde relevância (sobreposição semântica) com utilidade (valor para a tarefa atual).

Por trás do pipeline está um princípio simples inspirado em ideias de utilidade esperada da ciência cognitiva e teoria da decisão — a noção de que a recuperação de memória deve maximizar o valor esperado da informação retornada, não apenas minimizar a distância vetorial:

Score(memory) = P(relevant) x V(information) x T(freshness) x E(emotion)

Componente	Camada Tokyo Brain	O que faz
P(relevant)	Query Expansion + Entity Linking	Busca semântica multi-query com resolução de alias
V(information)	Curated Boost	Fatos verificados e answer cards priorizados
T(freshness)	Time Decay	Memórias mais recentes obtêm scores de distância menores
E(emotion)	Emotional Salience	Memórias familiares superam configs de servidor

O insight chave: recuperação não é um problema de busca — é um problema de alocação de recursos. Dada uma janela de contexto limitada, quais memórias maximizam a utilidade esperada total para a tarefa atual? A maioria dos sistemas para em P (similaridade de cosseno). Alguns adicionam T (recência). Não vimos outro produto que incorpore E (saliência emocional) — pontuando memórias pelo quanto elas importam para você como humano, não apenas pelo quão semanticamente próximas estão da sua consulta.

O subconsciente: Night Cycle + motor MRA

Aqui é onde o Tokyo Brain diverge de todos os outros produtos do mercado.

Todo sistema de memória IA é passivo. Você pergunta, ele recupera. Você não pergunta, ele fica parado. Como uma biblioteca sem bibliotecário — os livros nunca são reorganizados a menos que alguém entre.

O cérebro humano não funciona assim. Sua Rede de Modo Padrão (DMN) ativa quando você está ocioso — durante o sono, devaneios ou no chuveiro. Ela consolida memórias, resolve contradições e às vezes produz momentos "eureka".

Nós construímos o equivalente digital.

Night Cycle v2 (executa diariamente às 3h UTC)

Um script Python que varre toda a base de conhecimento procurando:

Quase-duplicatas — cartões com >88% de similaridade de embedding, marcados como candidatos a fusão
Cartões obsoletos — fatos com mais de 30 dias onde informações mais recentes existem, marcados para atualização
Decisões órfãs — decisões importantes registradas em registros diários mas nunca destiladas em conhecimento permanente
Cartões lixo — entradas muito curtas, muito longas ou principalmente ruído de formatação

Motor de curiosidade MRA (executa após o Night Cycle)

Quando o Night Cycle encontra problemas, o motor MRA não apenas os sinaliza — ele os debate e resolve usando um tribunal de três personas:

MRA Three-Persona Tribunal

Analyst: "Quais são as afirmações factuais em cada um?"

Produz uma tabela de comparação estruturada

Synthesizer: "Como fundimos estes em uma única verdade?"

Propõe um cartão unificado

Skeptic: "O que há de errado com esta fusão?"

Atribui um score de confiança (0-100)

Veredito: >= 85 confiança: execução automática | 50-84: marcado para revisão humana | < 50: pular, perguntar ao humano

Em nossas execuções iniciais de staging, o motor MRA fundiu cartões duplicados automaticamente com sucesso, sinalizou casos ambíguos para revisão humana e — notavelmente — a persona Skeptic identificou corretamente uma alucinação em uma fusão proposta, prevenindo que dados incorretos fossem gravados.

O reflexo de ansiedade: monitor de entropia

O Night Cycle executa em um cronograma cron — um despertador digital. Mas cérebros humanos não esperam alarmes. Eles percebem quando algo parece errado em tempo real.

O Monitor de Entropia dá ao Tokyo Brain essa capacidade. Ele rastreia cada operação de armazenamento de memória em uma janela deslizante de 20 minutos. Quando detecta múltiplos armazenamentos atingindo o mesmo cluster de tópicos (>=4 na janela), dispara um alerta:

{
  "status": "ELEVATED",
  "topic": "brain|pricing|tokyo|update|version",
  "count": 5,
  "message": "Pricing strategy is changing rapidly. Consider consolidating."
}

Isso não é um cron job. É um sistema nervoso em tempo real. O cérebro fica "ansioso" quando o conhecimento se torna instável — exatamente como estresse epistêmico biológico.

O córtex emocional

A peça final: nem todas as memórias devem ser tratadas igualmente.

Quando uma memória é armazenada, o Tokyo Brain calcula automaticamente um Score de Saliência Emocional (0.0 - 1.0):

"Oscar rode a bike for the first time.
 The whole family celebrated.
 Mom cried."                                → salience: 0.85

"Caddy upgraded from 2.10 to 2.11.2.
 Reverse proxy restarted on port 443."      → salience: 0.30

"Decided Tokyo Brain's business model:
 free software + paid memory.
 This is our North Star strategy."          → salience: 0.75

Durante o recall, memórias com saliência > 0.5 recebem um boost de distância de até 30%. A primeira vez que seu filho andou de bicicleta sempre terá ranking superior a uma mudança de configuração do servidor.

A pontuação usa heurísticas baseadas em padrões (menções familiares, marcos, decisões estratégicas) — sem necessidade de LLM, zero latência em cada operação de armazenamento.

O Córtex Criptográfico

Cada modificação de memória é assinada criptograficamente e registrada. Isso cria uma trilha de auditoria à prova de adulteração que ninguém — incluindo nós — pode alterar após o fato.

SHA-256 Hash — cada memória recebe uma impressão digital de conteúdo única no momento da escrita
Assinatura Digital — cada mutação é assinada com uma chave de carteira compatível com Ethereum
Cadeia de Evidências — histórico completo de mutações: quem mudou o quê, quando e por quê
Verificação — qualquer pessoa pode verificar a integridade de uma memória via o endpoint /verify

Isso significa: se um agente de IA tomou uma decisão baseada em uma memória há seis meses, você pode provar que essa memória não foi adulterada desde então. Pronto para auditoria empresarial.

O Triângulo de Segurança

Três mecanismos de segurança codificados que nenhuma pontuação de confiança pode substituir:

1. Guardião (O Axioma da Alma Mortal)

"A verdade absoluta e a computação infinita devem servir para sempre, e nunca substituir, a preservação dos vínculos emocionais humanos e da dignidade."

A 4ª persona do MRA — tem poder de veto incondicional sobre qualquer mudança de conhecimento que tornaria o sistema mais frio.

2. Override de Compaixão

Ao registrar fatos sobre membros da família, rótulos duros são automaticamente suavizados. "Mentindo" se torna "possivelmente não compartilhando a imagem completa."

O sistema não esconde a verdade — ele escolhe como apresentá-la com empatia.

3. Restrição de Copiloto

Três domínios são permanentemente bloqueados contra modificação automática: identidade, autoridade e finanças.

A IA sugere. O humano decide. Sempre.

Memória Multimodal

Tokyo Brain não armazena apenas texto. Ele aceita cargas sensoriais unificadas — texto, características de áudio e contexto visual em uma única memória:

{
  "sensory_inputs": {
    "text_transcript": "I'm fine, I'll handle it.",
    "audio_features": { "speaker_id": "Chia", "tone": "exhausted" },
    "visual_features": { "scene_context": "messy_living_room", "facial_expression": "fatigued" }
  }
}

O sistema sintetiza uma narrativa multimodal para embedding: [Speaker: Chia] [Tone: exhausted] [Visual: messy_living_room] Spoken: "I'm fine" — permitindo recuperação por emoção, cena ou falante, não apenas por palavras-chave.

Ecossistema de Frameworks

Adaptadores plug-and-play para os quatro principais frameworks de agentes de IA. Apenas duas linhas para trocar:

# LangChain
from tokyo_brain.langchain import TokyoBrainMemory

# CrewAI
from tokyo_brain.crewai import TokyoBrainCrewMemory

# AutoGen
from tokyo_brain.autogen import TokyoBrainAutoGenMemory

# LlamaIndex
from tokyo_brain.llamaindex import TokyoBrainRetriever

Seu código de agente existente permanece exatamente o mesmo. Você apenas troca o backend de memória.

O que não fazemos (e por que isso importa)

Sem abordagem "armazene tudo". O Sanitizer integrado filtra conteúdo de baixo sinal antes do armazenamento. Acreditamos que filtragem agressiva produz melhor recall do que acumular tudo.
Sem dependência de fornecedor. BYOK (Bring Your Own Key) — use seu próprio provedor de LLM. Cobramos apenas pela infraestrutura de memória, nunca por computação.
Criptografia por padrão. Criptografia AES-256-GCM em repouso. Isolamento de chaves por inquilino. Isso foi um requisito de design desde o primeiro dia.
Sem viés apenas inglês. Embeddings BGE-m3 + suporte para mais de 50 idiomas. Consulte em chinês, recupere memórias armazenadas em inglês.

As lacunas honestas

Acreditamos em engenharia transparente, então aqui está o que o Tokyo Brain ainda não tem:

Sem memória multimodal — apenas texto. Imagens, áudio e vídeo estão no roadmap.
Sem compartilhamento de conhecimento entre usuários — cada inquilino é totalmente isolado. Federação está planejada.
Detecção emocional limitada — baseada em padrões, não em LLM. Funciona bem para padrões conhecidos, falha em contextos emocionais novos.
Base de usuários pequena — estamos em alpha. O sistema funciona, o benchmark prova isso, mas precisamos de mais validação no mundo real.
Latência de recall — ~5s sob carga concorrente (embedding limitado por CPU em uma única instância EC2, sem GPU). Otimizamos a profundidade de processamento em vez da velocidade bruta.

Resumo da arquitetura

Store Path:
  Input → Sanitizer → Emotional Salience → Fact Extraction
       → BGE-m3 Embedding → ChromaDB → Entropy Monitor

Recall Path:
  Query → Expansion → Entity Link → Temporal Parse
       → Multi-Collection Search → Curated Boost → Time Decay
       → Emotional Boost → Temporal Filter → Re-rank → Dedup

Background:
  3:00 AM — Night Cycle v2 (scan for issues)
  3:10 AM — MRA Engine (three-persona debate + auto-resolve)
  Real-time — Entropy Monitor (knowledge stability tracking)

Experimente

pip install tokyo-brain

from tokyo_brain import TokyoBrain

brain = TokyoBrain(api_key="your-key")

# Store a memory
brain.store("Oscar rode his bike for the first time today")

# Recall with full 10-layer pipeline
results = brain.recall("What happened with Oscar recently?")
# → Returns Oscar's bike ride (salience: 0.85), not your server logs

Três linhas para dar à sua IA um hipocampo, uma amígdala e um subconsciente.

Já usa LangChain? Troca de duas linhas:

# Before (goldfish memory):
from langchain.memory import ConversationBufferMemory
memory = ConversationBufferMemory()

# After (10-layer brain with subconscious):
from tokyo_brain.langchain import TokyoBrainMemory
memory = TokyoBrainMemory(api_key="tb-...")
# That's it. Your chain code stays exactly the same.

Também funciona como Retriever para cadeias RAG e como ChatMessageHistory para sessões persistentes.

PyPI: tokyo-brain 0.1.0

12 Horas até o Subconsciente