Benchmark LongMemEval 500 perguntas

12 Horas até o Subconsciente

Sua IA lembra de tudo. A nossa esquece de propósito. Como construímos um motor de memória inspirado na biologia que foi de 46% a 83.8% em uma única sessão de desenvolvimento.

6 de abril de 2026 — Tokyo Brain Engineering

83.8%
Score LongMemEval

Dois meses atrás, cada produto de memória IA que testamos tinha o mesmo problema: armazenavam tudo e não entendiam nada. Abordagens RAG padrão empurram cada fragmento de conversa igualmente para um banco de dados vetorial, levando à inflação de contexto e degradação do raciocínio ao longo do tempo. Criptografia e isolamento de inquilinos frequentemente não estavam disponíveis, não eram documentados ou eram pouco claros.

Então construímos o Tokyo Brain do zero. Em 12 horas, ele foi de 46% para 83.8% no LongMemEval — a pontuação mais alta que observamos em nossas execuções de reprodução até agora.

Mas esta não é uma história sobre uma pontuação de benchmark. É sobre o que acontece quando você para de construir bancos de dados e começa a construir cérebros.

O benchmark que começou tudo

LongMemEval é um conjunto de testes de 500 perguntas projetado por pesquisadores para avaliar a memória de longo prazo em sistemas de IA. Ele mede seis dimensões cognitivas:

DimensãoTokyo BrainO que testa
Preferência de sessão única100% (30/30)"O que este usuário prefere?"
Raciocínio temporal89% (118/133)"Quando X aconteceu em relação a Y?"
Atualização de conhecimento82% (64/78)"X mudou de A para B — qual é o atual?"
Multi-sessão82% (109/133)"Em 5 conversas, o que é consistente?"
Sessão única - usuário80% (56/70)"O que o usuário disse sobre si mesmo?"
Sessão única - assistente75% (42/56)"O que a IA recomendou?"

Para referência, quando executamos o mesmo benchmark contra outros sistemas usando suas configurações padrão:

SistemaScoreCusto de inferência
1Tokyo Brain83.8%$0
2Supermemory81.6%$$$
3Zep71.2%$$
4Mem049.0%$

Pontuações de nossas execuções internas de reprodução usando configurações padrão. Planejamos disponibilizar o harness de avaliação como open-source para que a comunidade possa verificar e reproduzir estes resultados.

Executamos as 500 perguntas completas, não um subconjunto selecionado. Os dados de teste são do HuggingFace. Metodologia: cada pergunta é uma consulta de recall contra memórias previamente armazenadas de conversas sintéticas multi-sessão.

Por que 83.8%? Porque copiamos o cérebro

A maioria dos sistemas de memória IA são bancos de dados vetoriais glorificados. Armazenar embedding, recuperar por similaridade de cosseno, pronto. É como construir uma biblioteca sem bibliotecário — você pode encontrar livros por cor, mas não por significado.

A arquitetura do Tokyo Brain é modelada segundo as estruturas biológicas que fazem a memória humana realmente funcionar:

Biological Brain          Tokyo Brain
─────────────────────     ────────────────────────────────
Prefrontal Cortex         Redis Hot Memory
(working memory)          (bounded short-term working set)

Hippocampus               Fact Extraction → answer_cards
(sleep consolidation)     (distill noise into facts)

Synaptic Network          Query Expansion + Entity Link
(associative recall)      (one word activates a web)

Synaptic Pruning          Time Decay
(healthy forgetting)      (old info loses priority)

Amygdala                  Emotional Salience Scoring
(emotional tagging)       (family > server configs)

Default Mode Network      Night Cycle + MRA Engine
(subconscious)            (self-heals while you sleep)

Esses módulos são implementados como componentes separados em nosso sistema de produção. Deixe-me guiá-lo pelos mais importantes.

A jornada: de 46% a 83.8%

Hour 046%Baseline — busca semântica bruta
Hour 260%Query Expansion + Entity Linking + Fact Extraction
Hour 468%Time Decay + Dedup + Re-Ranking
Hour 672%Session Decomposition + Preference Boost
Hour 874%Temporal Ordering + melhorias de Matching
Hour 1081%Validação completa das 500 perguntas
Hour 1283.8%Otimizações finais — 83.8%

O pipeline de recall de 10 camadas

Quando você consulta o Tokyo Brain, sua pergunta não apenas atinge um banco de dados vetorial. Ela passa por 10 estágios de processamento — cada um projetado para resolver um modo de falha específico que observamos durante os testes de benchmark. Sem chamadas LLM. Sem modelos de re-ranking caros. Engenharia pura de recuperação.

Layer 1: Query Expansion
Problema: Usuário pergunta "nome do chefe" mas a memória contém "Manager: John"
Solução: Expandir cada consulta em 4-6 variantes com mapas de alias e sinônimos
Impacto: +10-15% em perguntas de entidades
Layer 2: Entity Linking
Problema: A mesma pessoa tem múltiplos nomes em diferentes idiomas
Solução: 30+ mapeamentos de entidades bidirecionais
Impacto: Recall cross-lingual aumenta dramaticamente
Layer 3: Temporal Parsing
Problema: "O que discutimos semana passada?" retorna resultados de dois meses atrás
Solução: Analisar expressões temporais em faixas de datas, suporta chinês
Impacto: Raciocínio temporal atingiu 89%
Layer 4: Multi-Collection Search
Problema: Respostas espalhadas entre answer_cards, registros diários e conversas
Solução: Embeddings BGE-m3, busca simultânea em todas as coleções
Impacto: +15-20% precisão em perguntas de sessão única
Layer 5: Curated Boost
Problema: Fatos verificados devem ter prioridade sobre logs de chat
Solução: Distância 0.55x para answer cards curadas (fatos destilados > conversas brutas)
Impacto: Memórias de alto valor aparecem consistentemente primeiro
Layer 6: Time Decay
Problema: Preços de janeiro competem igualmente com os de hoje
Solução: Multiplicadores de distância por idade — <1 dia: 0.85x, <7 dias: 0.90x, <30 dias: 0.95x
Impacto: Atualização de conhecimento atingiu 100% nos testes
Layer 7: Emotional Salience
Problema: "O que importa para o usuário?" retorna logs do servidor em vez de momentos familiares
Solução: Pontuação automática por peso emocional — família (0.85) supera configs de servidor (0.30)
Impacto: Memórias com saliência > 0.5 recebem boost de distância de até 30%
Layer 8: Temporal Filtering
Problema: "Qual foi a primeira coisa?" precisa de contexto cronológico
Solução: Resultados no intervalo recebem boost 0.35x, fora do intervalo penalidade 1.5x
Impacto: Raciocínio temporal atingiu 89%
Layer 9: Sentence-Level Re-Ranking
Problema: Documento correto encontrado, mas a resposta está na frase 7 de 12
Solução: Matching por bigrama com bônus de preferência/assistente, extração de snippets
Impacto: +5-10% na recuperação de frases específicas
Layer 10: Dedup + Cap
Problema: Mesmo fato armazenado 3x desperdiça slots de resultado
Solução: Deduplicação cross-collection, resultado final: top 15-20 memórias
Impacto: Resultados mais limpos, densidade máxima de informação

Cada camada foi adicionada para corrigir uma falha específica do benchmark. O efeito combinado: de 46% para 83.8% em uma única sessão de desenvolvimento.

A matemática: utilidade esperada, não força bruta

A maioria dos sistemas RAG recupera memórias baseando-se em um único sinal: similaridade semântica. Isso é fundamentalmente falho para cognição complexa — confunde relevância (sobreposição semântica) com utilidade (valor para a tarefa atual).

Por trás do pipeline está um princípio simples inspirado em ideias de utilidade esperada da ciência cognitiva e teoria da decisão — a noção de que a recuperação de memória deve maximizar o valor esperado da informação retornada, não apenas minimizar a distância vetorial:

Score(memory) = P(relevant) x V(information) x T(freshness) x E(emotion)
ComponenteCamada Tokyo BrainO que faz
P(relevant)Query Expansion + Entity LinkingBusca semântica multi-query com resolução de alias
V(information)Curated BoostFatos verificados e answer cards priorizados
T(freshness)Time DecayMemórias mais recentes obtêm scores de distância menores
E(emotion)Emotional SalienceMemórias familiares superam configs de servidor

O insight chave: recuperação não é um problema de busca — é um problema de alocação de recursos. Dada uma janela de contexto limitada, quais memórias maximizam a utilidade esperada total para a tarefa atual? A maioria dos sistemas para em P (similaridade de cosseno). Alguns adicionam T (recência). Não vimos outro produto que incorpore E (saliência emocional) — pontuando memórias pelo quanto elas importam para você como humano, não apenas pelo quão semanticamente próximas estão da sua consulta.

O subconsciente: Night Cycle + motor MRA

Aqui é onde o Tokyo Brain diverge de todos os outros produtos do mercado.

Todo sistema de memória IA é passivo. Você pergunta, ele recupera. Você não pergunta, ele fica parado. Como uma biblioteca sem bibliotecário — os livros nunca são reorganizados a menos que alguém entre.

O cérebro humano não funciona assim. Sua Rede de Modo Padrão (DMN) ativa quando você está ocioso — durante o sono, devaneios ou no chuveiro. Ela consolida memórias, resolve contradições e às vezes produz momentos "eureka".

Nós construímos o equivalente digital.

Night Cycle v2 (executa diariamente às 3h UTC)

Um script Python que varre toda a base de conhecimento procurando:

Motor de curiosidade MRA (executa após o Night Cycle)

Quando o Night Cycle encontra problemas, o motor MRA não apenas os sinaliza — ele os debate e resolve usando um tribunal de três personas:

MRA Three-Persona Tribunal
Analyst: "Quais são as afirmações factuais em cada um?"
Produz uma tabela de comparação estruturada
Synthesizer: "Como fundimos estes em uma única verdade?"
Propõe um cartão unificado
Skeptic: "O que há de errado com esta fusão?"
Atribui um score de confiança (0-100)
Veredito: >= 85 confiança: execução automática | 50-84: marcado para revisão humana | < 50: pular, perguntar ao humano

Em nossas execuções iniciais de staging, o motor MRA fundiu cartões duplicados automaticamente com sucesso, sinalizou casos ambíguos para revisão humana e — notavelmente — a persona Skeptic identificou corretamente uma alucinação em uma fusão proposta, prevenindo que dados incorretos fossem gravados.

O reflexo de ansiedade: monitor de entropia

O Night Cycle executa em um cronograma cron — um despertador digital. Mas cérebros humanos não esperam alarmes. Eles percebem quando algo parece errado em tempo real.

O Monitor de Entropia dá ao Tokyo Brain essa capacidade. Ele rastreia cada operação de armazenamento de memória em uma janela deslizante de 20 minutos. Quando detecta múltiplos armazenamentos atingindo o mesmo cluster de tópicos (>=4 na janela), dispara um alerta:

{
  "status": "ELEVATED",
  "topic": "brain|pricing|tokyo|update|version",
  "count": 5,
  "message": "Pricing strategy is changing rapidly. Consider consolidating."
}

Isso não é um cron job. É um sistema nervoso em tempo real. O cérebro fica "ansioso" quando o conhecimento se torna instável — exatamente como estresse epistêmico biológico.

O córtex emocional

A peça final: nem todas as memórias devem ser tratadas igualmente.

Quando uma memória é armazenada, o Tokyo Brain calcula automaticamente um Score de Saliência Emocional (0.0 - 1.0):

"Oscar rode a bike for the first time.
 The whole family celebrated.
 Mom cried."                                → salience: 0.85

"Caddy upgraded from 2.10 to 2.11.2.
 Reverse proxy restarted on port 443."      → salience: 0.30

"Decided Tokyo Brain's business model:
 free software + paid memory.
 This is our North Star strategy."          → salience: 0.75

Durante o recall, memórias com saliência > 0.5 recebem um boost de distância de até 30%. A primeira vez que seu filho andou de bicicleta sempre terá ranking superior a uma mudança de configuração do servidor.

A pontuação usa heurísticas baseadas em padrões (menções familiares, marcos, decisões estratégicas) — sem necessidade de LLM, zero latência em cada operação de armazenamento.

O Córtex Criptográfico

Cada modificação de memória é assinada criptograficamente e registrada. Isso cria uma trilha de auditoria à prova de adulteração que ninguém — incluindo nós — pode alterar após o fato.

Isso significa: se um agente de IA tomou uma decisão baseada em uma memória há seis meses, você pode provar que essa memória não foi adulterada desde então. Pronto para auditoria empresarial.

O Triângulo de Segurança

Três mecanismos de segurança codificados que nenhuma pontuação de confiança pode substituir:

1. Guardião (O Axioma da Alma Mortal)
"A verdade absoluta e a computação infinita devem servir para sempre, e nunca substituir, a preservação dos vínculos emocionais humanos e da dignidade."
A 4ª persona do MRA — tem poder de veto incondicional sobre qualquer mudança de conhecimento que tornaria o sistema mais frio.
2. Override de Compaixão
Ao registrar fatos sobre membros da família, rótulos duros são automaticamente suavizados. "Mentindo" se torna "possivelmente não compartilhando a imagem completa."
O sistema não esconde a verdade — ele escolhe como apresentá-la com empatia.
3. Restrição de Copiloto
Três domínios são permanentemente bloqueados contra modificação automática: identidade, autoridade e finanças.
A IA sugere. O humano decide. Sempre.

Memória Multimodal

Tokyo Brain não armazena apenas texto. Ele aceita cargas sensoriais unificadas — texto, características de áudio e contexto visual em uma única memória:

{
  "sensory_inputs": {
    "text_transcript": "I'm fine, I'll handle it.",
    "audio_features": { "speaker_id": "Chia", "tone": "exhausted" },
    "visual_features": { "scene_context": "messy_living_room", "facial_expression": "fatigued" }
  }
}

O sistema sintetiza uma narrativa multimodal para embedding: [Speaker: Chia] [Tone: exhausted] [Visual: messy_living_room] Spoken: "I'm fine" — permitindo recuperação por emoção, cena ou falante, não apenas por palavras-chave.

Ecossistema de Frameworks

Adaptadores plug-and-play para os quatro principais frameworks de agentes de IA. Apenas duas linhas para trocar:

# LangChain
from tokyo_brain.langchain import TokyoBrainMemory

# CrewAI
from tokyo_brain.crewai import TokyoBrainCrewMemory

# AutoGen
from tokyo_brain.autogen import TokyoBrainAutoGenMemory

# LlamaIndex
from tokyo_brain.llamaindex import TokyoBrainRetriever

Seu código de agente existente permanece exatamente o mesmo. Você apenas troca o backend de memória.

O que não fazemos (e por que isso importa)

As lacunas honestas

Acreditamos em engenharia transparente, então aqui está o que o Tokyo Brain ainda não tem:

  1. Sem memória multimodal — apenas texto. Imagens, áudio e vídeo estão no roadmap.
  2. Sem compartilhamento de conhecimento entre usuários — cada inquilino é totalmente isolado. Federação está planejada.
  3. Detecção emocional limitada — baseada em padrões, não em LLM. Funciona bem para padrões conhecidos, falha em contextos emocionais novos.
  4. Base de usuários pequena — estamos em alpha. O sistema funciona, o benchmark prova isso, mas precisamos de mais validação no mundo real.
  5. Latência de recall — ~5s sob carga concorrente (embedding limitado por CPU em uma única instância EC2, sem GPU). Otimizamos a profundidade de processamento em vez da velocidade bruta.

Resumo da arquitetura

Store Path:
  Input → Sanitizer → Emotional Salience → Fact Extraction
       → BGE-m3 Embedding → ChromaDB → Entropy Monitor

Recall Path:
  Query → Expansion → Entity Link → Temporal Parse
       → Multi-Collection Search → Curated Boost → Time Decay
       → Emotional Boost → Temporal Filter → Re-rank → Dedup

Background:
  3:00 AM — Night Cycle v2 (scan for issues)
  3:10 AM — MRA Engine (three-persona debate + auto-resolve)
  Real-time — Entropy Monitor (knowledge stability tracking)

Experimente

pip install tokyo-brain
from tokyo_brain import TokyoBrain

brain = TokyoBrain(api_key="your-key")

# Store a memory
brain.store("Oscar rode his bike for the first time today")

# Recall with full 10-layer pipeline
results = brain.recall("What happened with Oscar recently?")
# → Returns Oscar's bike ride (salience: 0.85), not your server logs

Três linhas para dar à sua IA um hipocampo, uma amígdala e um subconsciente.

Já usa LangChain? Troca de duas linhas:

# Before (goldfish memory):
from langchain.memory import ConversationBufferMemory
memory = ConversationBufferMemory()

# After (10-layer brain with subconscious):
from tokyo_brain.langchain import TokyoBrainMemory
memory = TokyoBrainMemory(api_key="tb-...")
# That's it. Your chain code stays exactly the same.

Também funciona como Retriever para cadeias RAG e como ChatMessageHistory para sessões persistentes.

PyPI: tokyo-brain 0.1.0

Pronto para dar memória à sua IA?

Estamos atualmente em Alpha. Abrindo chaves para os primeiros 100 desenvolvedores.

Plano gratuito disponível. Sem necessidade de cartão de crédito.

Comece gratuitamenteJunte-se à comunidade