Benchmark LongMemEval de 500 preguntas

12 horas hasta el subconsciente

Tu IA lo recuerda todo. La nuestra olvida a proposito. Como construimos un motor de memoria inspirado en la biologia que paso del 46% al 83.8% en una sola sesion de desarrollo.

6 de abril de 2026 — Tokyo Brain Engineering

83.8%
Puntuacion LongMemEval

Hace dos meses, todos los productos de memoria AI que probamos tenian el mismo problema: almacenaban todo y no entendian nada. Los enfoques RAG estandar meten cada fragmento de conversacion en una base de datos vectorial por igual, lo que provoca inflacion de contexto y degradacion del razonamiento con el tiempo. El cifrado y el aislamiento de inquilinos a menudo no estaban disponibles, no estaban documentados o no eran claros.

Asi que construimos Tokyo Brain desde cero. En 12 horas, paso del 46% al 83.8% en LongMemEval — la puntuacion mas alta que hemos observado en nuestras ejecuciones de reproduccion hasta ahora.

Pero esta no es una historia sobre una puntuacion de benchmark. Es sobre lo que sucede cuando dejas de construir bases de datos y empiezas a construir cerebros.

El benchmark que lo empezo todo

LongMemEval es un conjunto de pruebas de 500 preguntas disenado por investigadores para evaluar la memoria a largo plazo en sistemas de IA. Mide seis dimensiones cognitivas:

DimensionTokyo BrainQue evalua
Preferencia de sesion unica100% (30/30)"Que prefiere este usuario?"
Razonamiento temporal89% (118/133)"Cuando ocurrio X en relacion con Y?"
Actualizacion de conocimiento82% (64/78)"X cambio de A a B — cual es el actual?"
Multi-sesion82% (109/133)"En 5 conversaciones, que es consistente?"
Sesion unica - usuario80% (56/70)"Que dijo el usuario sobre si mismo?"
Sesion unica - asistente75% (42/56)"Que recomendo la IA?"

Como referencia, cuando ejecutamos el mismo benchmark contra otros sistemas usando sus configuraciones predeterminadas:

SistemaPuntuacionCoste de inferencia
1Tokyo Brain83.8%$0
2Supermemory81.6%$$$
3Zep71.2%$$
4Mem049.0%$

Puntuaciones de nuestras ejecuciones de reproduccion internas usando configuraciones predeterminadas. Planeamos hacer open-source el arnes de evaluacion para que la comunidad pueda verificar y reproducir estos resultados.

Ejecutamos las 500 preguntas completas, no un subconjunto seleccionado. Los datos de prueba provienen de HuggingFace. Metodologia: cada pregunta es una consulta de recuerdo contra memorias previamente almacenadas de conversaciones sinteticas multi-sesion.

Por que 83.8%? Porque copiamos el cerebro

La mayoria de los sistemas de memoria AI son bases de datos vectoriales glorificadas. Almacenar embedding, recuperar por similitud coseno, listo. Es como construir una biblioteca sin bibliotecario — puedes encontrar libros por color, pero no por significado.

La arquitectura de Tokyo Brain esta modelada segun las estructuras biologicas que hacen que la memoria humana realmente funcione:

Biological Brain          Tokyo Brain
─────────────────────     ────────────────────────────────
Prefrontal Cortex         Redis Hot Memory
(working memory)          (bounded short-term working set)

Hippocampus               Fact Extraction → answer_cards
(sleep consolidation)     (distill noise into facts)

Synaptic Network          Query Expansion + Entity Link
(associative recall)      (one word activates a web)

Synaptic Pruning          Time Decay
(healthy forgetting)      (old info loses priority)

Amygdala                  Emotional Salience Scoring
(emotional tagging)       (family > server configs)

Default Mode Network      Night Cycle + MRA Engine
(subconscious)            (self-heals while you sleep)

Estos modulos estan implementados como componentes separados en nuestro sistema de produccion. Permiteme guiarte por los mas importantes.

El viaje: del 46% al 83.8%

Hour 046%Linea base — busqueda semantica basica
Hour 260%Query Expansion + Entity Linking + Fact Extraction
Hour 468%Time Decay + Dedup + Re-Ranking
Hour 672%Session Decomposition + Preference Boost
Hour 874%Temporal Ordering + mejoras de Matching
Hour 1081%Validacion completa de 500 preguntas
Hour 1283.8%Optimizaciones finales — 83.8%

El pipeline de recuerdo de 10 capas

Cuando consultas Tokyo Brain, tu pregunta no simplemente llega a una base de datos vectorial. Pasa por 10 etapas de procesamiento — cada una disenada para resolver un modo de fallo especifico que observamos durante las pruebas de benchmark. Sin llamadas LLM. Sin modelos costosos de re-ranking. Ingenieria de recuperacion pura.

Layer 1: Query Expansion
Problema: El usuario pregunta "nombre del jefe" pero la memoria dice "Manager: John"
Solucion: Expandir cada consulta en 4-6 variantes con mapas de alias y sinonimos
Impacto: +10-15% en preguntas de entidades
Layer 2: Entity Linking
Problema: La misma persona tiene multiples nombres en diferentes idiomas
Solucion: 30+ mapeos bidireccionales de entidades
Impacto: El recuerdo multilingue mejora dramaticamente
Layer 3: Temporal Parsing
Problema: "Que discutimos la semana pasada?" devuelve resultados de hace dos meses
Solucion: Parsear expresiones temporales en rangos de fechas, soporta chino
Impacto: Razonamiento temporal alcanzo 89%
Layer 4: Multi-Collection Search
Problema: Respuestas dispersas entre answer_cards, registros diarios y conversaciones
Solucion: Embeddings BGE-m3, busqueda simultanea en todas las colecciones
Impacto: +15-20% precision en preguntas de sesion unica
Layer 5: Curated Boost
Problema: Los hechos verificados deben superar a los logs de chat
Solucion: Distancia 0.55x para tarjetas de respuesta curadas (hechos destilados > conversaciones crudas)
Impacto: Las memorias de alto valor aparecen consistentemente primero
Layer 6: Time Decay
Problema: El precio de enero compite igualmente con el de hoy
Solucion: Multiplicadores de distancia por antiguedad — <1 dia: 0.85x, <7 dias: 0.90x, <30 dias: 0.95x
Impacto: Actualizacion de conocimiento alcanzo 100% en pruebas
Layer 7: Emotional Salience
Problema: "Que le importa al usuario?" devuelve logs del servidor en vez de momentos familiares
Solucion: Puntuacion automatica por peso emocional — familia (0.85) supera configuraciones del servidor (0.30)
Impacto: Memorias con saliencia > 0.5 obtienen hasta 30% de boost de distancia
Layer 8: Temporal Filtering
Problema: "Cual fue lo primero?" necesita contexto cronologico
Solucion: Resultados en rango obtienen boost 0.35x, fuera de rango penalizacion 1.5x
Impacto: Razonamiento temporal alcanzo 89%
Layer 9: Sentence-Level Re-Ranking
Problema: Se encontro el documento correcto, pero la respuesta esta en la frase 7 de 12
Solucion: Coincidencia de bigramas con bonificaciones de preferencia/asistente, extraccion de fragmentos
Impacto: +5-10% en recuperacion de frases especificas
Layer 10: Dedup + Cap
Problema: El mismo hecho almacenado 3 veces desperdicia espacios de resultados
Solucion: Deduplicacion entre colecciones, resultado final: top 15-20 memorias
Impacto: Resultados mas limpios, maxima densidad de informacion

Cada capa fue anadida para corregir un fallo especifico del benchmark. El efecto combinado: del 46% al 83.8% en una sola sesion de desarrollo.

Las matematicas: utilidad esperada, no fuerza bruta

La mayoria de los sistemas RAG recuperan memorias basandose en una sola senal: similitud semantica. Esto es fundamentalmente defectuoso para la cognicion compleja — confunde relevancia (solapamiento semantico) con utilidad (valor para la tarea actual).

Detras del pipeline hay un principio simple tomado de la ciencia cognitiva y la teoria de decisiones — la nocion de que la recuperacion de memoria deberia maximizar el valor esperado de la informacion devuelta, no solo minimizar la distancia vectorial:

Score(memory) = P(relevant) x V(information) x T(freshness) x E(emotion)
ComponenteCapa de Tokyo BrainFuncion
P(relevant)Query Expansion + Entity LinkingBusqueda semantica multi-consulta con resolucion de alias
V(information)Curated BoostHechos verificados y tarjetas de respuesta priorizadas
T(freshness)Time DecayMemorias mas recientes obtienen puntuaciones de distancia mas bajas
E(emotion)Emotional SalienceMemorias familiares superan configuraciones del servidor

La idea clave: la recuperacion no es un problema de busqueda — es un problema de asignacion de recursos. Dada una ventana de contexto limitada, que memorias maximizan la utilidad esperada total para la tarea actual? La mayoria de los sistemas se detienen en P (similitud coseno). Algunos anaden T (recencia). No hemos visto otro producto que incorpore E (saliencia emocional) — puntuando las memorias por cuanto importan a ti como humano, no solo por cuan semanticamente cercanas estan a tu consulta.

El subconsciente: Night Cycle + motor MRA

Aqui es donde Tokyo Brain diverge de cualquier otro producto del mercado.

Todo sistema de memoria AI es pasivo. Preguntas, recupera. No preguntas, permanece inactivo. Como una biblioteca sin bibliotecario — los libros nunca se reorganizan a menos que alguien entre.

El cerebro humano no funciona asi. Tu Red de Modo Predeterminado (DMN) se activa cuando estas inactivo — durante el sueno, sonando despierto o en la ducha. Consolida memorias, resuelve contradicciones y a veces produce momentos "eureka".

Construimos el equivalente digital.

Night Cycle v2 (se ejecuta diariamente a las 3 AM UTC)

Un script de Python que escanea toda la base de conocimiento buscando:

Motor de curiosidad MRA (se ejecuta despues del Night Cycle)

Cuando el Night Cycle encuentra problemas, el motor MRA no solo los marca — los debate y resuelve usando un tribunal de tres personas:

MRA Three-Persona Tribunal
Analyst: "Cuales son las afirmaciones factuales en cada uno?"
Produce una tabla de comparacion estructurada
Synthesizer: "Como fusionamos estos en una verdad?"
Propone una tarjeta unificada
Skeptic: "Que tiene de malo esta fusion?"
Asigna una puntuacion de confianza (0-100)
Veredicto: >= 85 confianza: auto-ejecutar | 50-84: marcar para revision humana | < 50: omitir, preguntar al humano

En nuestras ejecuciones iniciales de staging, el motor MRA fusiono exitosamente tarjetas duplicadas automaticamente, marco casos ambiguos para revision humana y — notablemente — la persona Skeptic identifico correctamente una alucinacion en una fusion propuesta, previniendo que datos incorrectos fueran escritos.

El reflejo de ansiedad: monitor de entropia

El Night Cycle se ejecuta segun un cronograma cron — un reloj despertador digital. Pero los cerebros humanos no esperan alarmas. Notan cuando algo se siente mal en tiempo real.

El Monitor de Entropia le da a Tokyo Brain esta capacidad. Rastrea cada operacion de almacenamiento de memoria en una ventana deslizante de 20 minutos. Cuando detecta multiples almacenamientos que afectan al mismo cluster de temas (>=4 en la ventana), dispara una alerta:

{
  "status": "ELEVATED",
  "topic": "brain|pricing|tokyo|update|version",
  "count": 5,
  "message": "Pricing strategy is changing rapidly. Consider consolidating."
}

Esto no es un trabajo cron. Es un sistema nervioso en tiempo real. El cerebro se pone "ansioso" cuando el conocimiento se vuelve inestable — exactamente como el estres epistemico biologico.

La corteza emocional

La pieza final: no todas las memorias deben ser tratadas por igual.

Cuando se almacena una memoria, Tokyo Brain calcula automaticamente una puntuacion de saliencia emocional (0.0 - 1.0):

"Oscar rode a bike for the first time.
 The whole family celebrated.
 Mom cried."                                → salience: 0.85

"Caddy upgraded from 2.10 to 2.11.2.
 Reverse proxy restarted on port 443."      → salience: 0.30

"Decided Tokyo Brain's business model:
 free software + paid memory.
 This is our North Star strategy."          → salience: 0.75

Durante el recuerdo, las memorias con saliencia > 0.5 obtienen un impulso de distancia de hasta el 30%. La primera vez que tu hijo monto en bicicleta siempre superara en ranking a un cambio de configuracion del servidor.

La puntuacion usa heuristicas basadas en patrones (menciones familiares, hitos, decisiones estrategicas) — sin necesidad de LLM, cero latencia en cada operacion de almacenamiento.

La Corteza Criptografica

Cada modificacion de memoria esta firmada criptograficamente y registrada. Esto crea un rastro de auditoria a prueba de manipulaciones que nadie — incluidos nosotros — puede alterar despues del hecho.

Esto significa: si un agente de IA tomo una decision basada en una memoria hace seis meses, puedes demostrar que esa memoria no ha sido manipulada desde entonces. Listo para auditoria empresarial.

El Triangulo de Seguridad

Tres mecanismos de seguridad codificados que ningun puntaje de confianza puede anular:

1. Guardian (El Axioma del Alma Mortal)
"La verdad absoluta y la computacion infinita deben servir para siempre, y nunca anular, la preservacion de los vinculos emocionales humanos y la dignidad."
La 4a persona de MRA — tiene poder de veto incondicional sobre cualquier cambio de conocimiento que haria al sistema mas frio.
2. Anulacion por Compasion
Al registrar hechos sobre miembros de la familia, las etiquetas duras se suavizan automaticamente. "Mintiendo" se convierte en "posiblemente no compartiendo la imagen completa."
El sistema no oculta la verdad — elige como presentarla con empatia.
3. Restriccion de Copiloto
Tres dominios estan permanentemente bloqueados de la modificacion automatica: identidad, autoridad y finanzas.
La IA sugiere. El humano decide. Siempre.

Memoria Multimodal

Tokyo Brain no solo almacena texto. Acepta cargas sensoriales unificadas — texto, caracteristicas de audio y contexto visual en una sola memoria:

{
  "sensory_inputs": {
    "text_transcript": "I'm fine, I'll handle it.",
    "audio_features": { "speaker_id": "Chia", "tone": "exhausted" },
    "visual_features": { "scene_context": "messy_living_room", "facial_expression": "fatigued" }
  }
}

El sistema sintetiza una narrativa multimodal para embedding: [Speaker: Chia] [Tone: exhausted] [Visual: messy_living_room] Spoken: "I'm fine" — permitiendo la recuperacion por emocion, escena o hablante, no solo por palabras clave.

Ecosistema de Frameworks

Adaptadores plug-and-play para los cuatro principales frameworks de agentes de IA. Solo dos lineas para intercambiar:

# LangChain
from tokyo_brain.langchain import TokyoBrainMemory

# CrewAI
from tokyo_brain.crewai import TokyoBrainCrewMemory

# AutoGen
from tokyo_brain.autogen import TokyoBrainAutoGenMemory

# LlamaIndex
from tokyo_brain.llamaindex import TokyoBrainRetriever

Tu codigo de agente existente permanece exactamente igual. Solo intercambias el backend de memoria.

Lo que no hacemos (y por que importa)

Las brechas honestas

Creemos en la ingenieria transparente, asi que esto es lo que Tokyo Brain aun no tiene:

  1. Sin memoria multimodal — solo texto. Imagenes, audio y video estan en la hoja de ruta.
  2. Sin comparticion de conocimiento entre usuarios — cada inquilino esta completamente aislado. La federacion esta planificada.
  3. Deteccion emocional limitada — basada en patrones, no en LLM. Funciona bien para patrones conocidos, falla con contextos emocionales novedosos.
  4. Base de usuarios pequena — estamos en alpha. El sistema funciona, el benchmark lo demuestra, pero necesitamos mas validacion del mundo real.
  5. Latencia de recuerdo — ~5s bajo carga concurrente (embedding limitado por CPU en una unica instancia EC2, sin GPU). Optimizamos la profundidad de procesamiento sobre la velocidad bruta.

Resumen de arquitectura

Store Path:
  Input → Sanitizer → Emotional Salience → Fact Extraction
       → BGE-m3 Embedding → ChromaDB → Entropy Monitor

Recall Path:
  Query → Expansion → Entity Link → Temporal Parse
       → Multi-Collection Search → Curated Boost → Time Decay
       → Emotional Boost → Temporal Filter → Re-rank → Dedup

Background:
  3:00 AM — Night Cycle v2 (scan for issues)
  3:10 AM — MRA Engine (three-persona debate + auto-resolve)
  Real-time — Entropy Monitor (knowledge stability tracking)

Pruebalo

pip install tokyo-brain
from tokyo_brain import TokyoBrain

brain = TokyoBrain(api_key="your-key")

# Store a memory
brain.store("Oscar rode his bike for the first time today")

# Recall with full 10-layer pipeline
results = brain.recall("What happened with Oscar recently?")
# → Returns Oscar's bike ride (salience: 0.85), not your server logs

Tres lineas para darle a tu IA un hipocampo, una amigdala y un subconsciente.

Ya usas LangChain? Intercambio de dos lineas:

# Before (goldfish memory):
from langchain.memory import ConversationBufferMemory
memory = ConversationBufferMemory()

# After (10-layer brain with subconscious):
from tokyo_brain.langchain import TokyoBrainMemory
memory = TokyoBrainMemory(api_key="tb-...")
# That's it. Your chain code stays exactly the same.

Tambien funciona como Retriever para cadenas RAG y como ChatMessageHistory para sesiones persistentes.

Documentacion API: api.tokyobrain.ai | PyPI: tokyo-brain 0.1.0

Listo para darle memoria a tu IA?

Actualmente estamos en Alpha. Abriendo claves para los primeros 100 desarrolladores.

Plan gratuito disponible. Sin tarjeta de credito.

Empieza gratis Unete a la comunidad