12 horas hasta el subconsciente: Como construimos un motor de memoria AI inspirado en la biologia

83.8%

Puntuacion LongMemEval

Hace dos meses, todos los productos de memoria AI que probamos tenian el mismo problema: almacenaban todo y no entendian nada. Los enfoques RAG estandar meten cada fragmento de conversacion en una base de datos vectorial por igual, lo que provoca inflacion de contexto y degradacion del razonamiento con el tiempo. El cifrado y el aislamiento de inquilinos a menudo no estaban disponibles, no estaban documentados o no eran claros.

Asi que construimos Tokyo Brain desde cero. En 12 horas, paso del 46% al 83.8% en LongMemEval — la puntuacion mas alta que hemos observado en nuestras ejecuciones de reproduccion hasta ahora.

Pero esta no es una historia sobre una puntuacion de benchmark. Es sobre lo que sucede cuando dejas de construir bases de datos y empiezas a construir cerebros.

El benchmark que lo empezo todo

LongMemEval es un conjunto de pruebas de 500 preguntas disenado por investigadores para evaluar la memoria a largo plazo en sistemas de IA. Mide seis dimensiones cognitivas:

Dimension	Tokyo Brain	Que evalua
Preferencia de sesion unica	100% (30/30)	"Que prefiere este usuario?"
Razonamiento temporal	89% (118/133)	"Cuando ocurrio X en relacion con Y?"
Actualizacion de conocimiento	82% (64/78)	"X cambio de A a B — cual es el actual?"
Multi-sesion	82% (109/133)	"En 5 conversaciones, que es consistente?"
Sesion unica - usuario	80% (56/70)	"Que dijo el usuario sobre si mismo?"
Sesion unica - asistente	75% (42/56)	"Que recomendo la IA?"

Como referencia, cuando ejecutamos el mismo benchmark contra otros sistemas usando sus configuraciones predeterminadas:

	Sistema	Puntuacion	Coste de inferencia
1	Tokyo Brain	83.8%	$0
2	Supermemory	81.6%	$$$
3	Zep	71.2%	$$
4	Mem0	49.0%	$

Puntuaciones de nuestras ejecuciones de reproduccion internas usando configuraciones predeterminadas. Planeamos hacer open-source el arnes de evaluacion para que la comunidad pueda verificar y reproducir estos resultados.

Ejecutamos las 500 preguntas completas, no un subconjunto seleccionado. Los datos de prueba provienen de HuggingFace. Metodologia: cada pregunta es una consulta de recuerdo contra memorias previamente almacenadas de conversaciones sinteticas multi-sesion.

Por que 83.8%? Porque copiamos el cerebro

La mayoria de los sistemas de memoria AI son bases de datos vectoriales glorificadas. Almacenar embedding, recuperar por similitud coseno, listo. Es como construir una biblioteca sin bibliotecario — puedes encontrar libros por color, pero no por significado.

La arquitectura de Tokyo Brain esta modelada segun las estructuras biologicas que hacen que la memoria humana realmente funcione:

Biological Brain          Tokyo Brain
─────────────────────     ────────────────────────────────
Prefrontal Cortex         Redis Hot Memory
(working memory)          (bounded short-term working set)

Hippocampus               Fact Extraction → answer_cards
(sleep consolidation)     (distill noise into facts)

Synaptic Network          Query Expansion + Entity Link
(associative recall)      (one word activates a web)

Synaptic Pruning          Time Decay
(healthy forgetting)      (old info loses priority)

Amygdala                  Emotional Salience Scoring
(emotional tagging)       (family > server configs)

Default Mode Network      Night Cycle + MRA Engine
(subconscious)            (self-heals while you sleep)

Estos modulos estan implementados como componentes separados en nuestro sistema de produccion. Permiteme guiarte por los mas importantes.

El viaje: del 46% al 83.8%

Hour 046%Linea base — busqueda semantica basica

Hour 260%Query Expansion + Entity Linking + Fact Extraction

Hour 468%Time Decay + Dedup + Re-Ranking

Hour 672%Session Decomposition + Preference Boost

Hour 874%Temporal Ordering + mejoras de Matching

Hour 1081%Validacion completa de 500 preguntas

Hour 1283.8%Optimizaciones finales — 83.8%

El pipeline de recuerdo de 10 capas

Cuando consultas Tokyo Brain, tu pregunta no simplemente llega a una base de datos vectorial. Pasa por 10 etapas de procesamiento — cada una disenada para resolver un modo de fallo especifico que observamos durante las pruebas de benchmark. Sin llamadas LLM. Sin modelos costosos de re-ranking. Ingenieria de recuperacion pura.

Layer 1: Query Expansion

Problema: El usuario pregunta "nombre del jefe" pero la memoria dice "Manager: John"

Solucion: Expandir cada consulta en 4-6 variantes con mapas de alias y sinonimos

Impacto: +10-15% en preguntas de entidades

Layer 2: Entity Linking

Problema: La misma persona tiene multiples nombres en diferentes idiomas

Solucion: 30+ mapeos bidireccionales de entidades

Impacto: El recuerdo multilingue mejora dramaticamente

Layer 3: Temporal Parsing

Problema: "Que discutimos la semana pasada?" devuelve resultados de hace dos meses

Solucion: Parsear expresiones temporales en rangos de fechas, soporta chino

Impacto: Razonamiento temporal alcanzo 89%

Layer 4: Multi-Collection Search

Problema: Respuestas dispersas entre answer_cards, registros diarios y conversaciones

Solucion: Embeddings BGE-m3, busqueda simultanea en todas las colecciones

Impacto: +15-20% precision en preguntas de sesion unica

Layer 5: Curated Boost

Problema: Los hechos verificados deben superar a los logs de chat

Solucion: Distancia 0.55x para tarjetas de respuesta curadas (hechos destilados > conversaciones crudas)

Impacto: Las memorias de alto valor aparecen consistentemente primero

Layer 6: Time Decay

Problema: El precio de enero compite igualmente con el de hoy

Solucion: Multiplicadores de distancia por antiguedad — <1 dia: 0.85x, <7 dias: 0.90x, <30 dias: 0.95x

Impacto: Actualizacion de conocimiento alcanzo 100% en pruebas

Layer 7: Emotional Salience

Problema: "Que le importa al usuario?" devuelve logs del servidor en vez de momentos familiares

Solucion: Puntuacion automatica por peso emocional — familia (0.85) supera configuraciones del servidor (0.30)

Impacto: Memorias con saliencia > 0.5 obtienen hasta 30% de boost de distancia

Layer 8: Temporal Filtering

Problema: "Cual fue lo primero?" necesita contexto cronologico

Solucion: Resultados en rango obtienen boost 0.35x, fuera de rango penalizacion 1.5x

Impacto: Razonamiento temporal alcanzo 89%

Layer 9: Sentence-Level Re-Ranking

Problema: Se encontro el documento correcto, pero la respuesta esta en la frase 7 de 12

Solucion: Coincidencia de bigramas con bonificaciones de preferencia/asistente, extraccion de fragmentos

Impacto: +5-10% en recuperacion de frases especificas

Layer 10: Dedup + Cap

Problema: El mismo hecho almacenado 3 veces desperdicia espacios de resultados

Solucion: Deduplicacion entre colecciones, resultado final: top 15-20 memorias

Impacto: Resultados mas limpios, maxima densidad de informacion

Cada capa fue anadida para corregir un fallo especifico del benchmark. El efecto combinado: del 46% al 83.8% en una sola sesion de desarrollo.

Las matematicas: utilidad esperada, no fuerza bruta

La mayoria de los sistemas RAG recuperan memorias basandose en una sola senal: similitud semantica. Esto es fundamentalmente defectuoso para la cognicion compleja — confunde relevancia (solapamiento semantico) con utilidad (valor para la tarea actual).

Detras del pipeline hay un principio simple tomado de la ciencia cognitiva y la teoria de decisiones — la nocion de que la recuperacion de memoria deberia maximizar el valor esperado de la informacion devuelta, no solo minimizar la distancia vectorial:

Score(memory) = P(relevant) x V(information) x T(freshness) x E(emotion)

Componente	Capa de Tokyo Brain	Funcion
P(relevant)	Query Expansion + Entity Linking	Busqueda semantica multi-consulta con resolucion de alias
V(information)	Curated Boost	Hechos verificados y tarjetas de respuesta priorizadas
T(freshness)	Time Decay	Memorias mas recientes obtienen puntuaciones de distancia mas bajas
E(emotion)	Emotional Salience	Memorias familiares superan configuraciones del servidor

La idea clave: la recuperacion no es un problema de busqueda — es un problema de asignacion de recursos. Dada una ventana de contexto limitada, que memorias maximizan la utilidad esperada total para la tarea actual? La mayoria de los sistemas se detienen en P (similitud coseno). Algunos anaden T (recencia). No hemos visto otro producto que incorpore E (saliencia emocional) — puntuando las memorias por cuanto importan a ti como humano, no solo por cuan semanticamente cercanas estan a tu consulta.

El subconsciente: Night Cycle + motor MRA

Aqui es donde Tokyo Brain diverge de cualquier otro producto del mercado.

Todo sistema de memoria AI es pasivo. Preguntas, recupera. No preguntas, permanece inactivo. Como una biblioteca sin bibliotecario — los libros nunca se reorganizan a menos que alguien entre.

El cerebro humano no funciona asi. Tu Red de Modo Predeterminado (DMN) se activa cuando estas inactivo — durante el sueno, sonando despierto o en la ducha. Consolida memorias, resuelve contradicciones y a veces produce momentos "eureka".

Construimos el equivalente digital.

Night Cycle v2 (se ejecuta diariamente a las 3 AM UTC)

Un script de Python que escanea toda la base de conocimiento buscando:

Cuasi-duplicados — tarjetas con >88% de similitud de embedding, candidatos a fusion
Tarjetas obsoletas — hechos de mas de 30 dias donde existe informacion mas reciente, necesitan actualizacion
Decisiones huerfanas — decisiones importantes registradas en registros diarios pero nunca destiladas en conocimiento permanente
Tarjetas basura — entradas demasiado cortas, demasiado largas o mayormente ruido de formato

Motor de curiosidad MRA (se ejecuta despues del Night Cycle)

Cuando el Night Cycle encuentra problemas, el motor MRA no solo los marca — los debate y resuelve usando un tribunal de tres personas:

MRA Three-Persona Tribunal

Analyst: "Cuales son las afirmaciones factuales en cada uno?"

Produce una tabla de comparacion estructurada

Synthesizer: "Como fusionamos estos en una verdad?"

Propone una tarjeta unificada

Skeptic: "Que tiene de malo esta fusion?"

Asigna una puntuacion de confianza (0-100)

Veredicto: >= 85 confianza: auto-ejecutar | 50-84: marcar para revision humana | < 50: omitir, preguntar al humano

En nuestras ejecuciones iniciales de staging, el motor MRA fusiono exitosamente tarjetas duplicadas automaticamente, marco casos ambiguos para revision humana y — notablemente — la persona Skeptic identifico correctamente una alucinacion en una fusion propuesta, previniendo que datos incorrectos fueran escritos.

El reflejo de ansiedad: monitor de entropia

El Night Cycle se ejecuta segun un cronograma cron — un reloj despertador digital. Pero los cerebros humanos no esperan alarmas. Notan cuando algo se siente mal en tiempo real.

El Monitor de Entropia le da a Tokyo Brain esta capacidad. Rastrea cada operacion de almacenamiento de memoria en una ventana deslizante de 20 minutos. Cuando detecta multiples almacenamientos que afectan al mismo cluster de temas (>=4 en la ventana), dispara una alerta:

{
  "status": "ELEVATED",
  "topic": "brain|pricing|tokyo|update|version",
  "count": 5,
  "message": "Pricing strategy is changing rapidly. Consider consolidating."
}

Esto no es un trabajo cron. Es un sistema nervioso en tiempo real. El cerebro se pone "ansioso" cuando el conocimiento se vuelve inestable — exactamente como el estres epistemico biologico.

La corteza emocional

La pieza final: no todas las memorias deben ser tratadas por igual.

Cuando se almacena una memoria, Tokyo Brain calcula automaticamente una puntuacion de saliencia emocional (0.0 - 1.0):

"Oscar rode a bike for the first time.
 The whole family celebrated.
 Mom cried."                                → salience: 0.85

"Caddy upgraded from 2.10 to 2.11.2.
 Reverse proxy restarted on port 443."      → salience: 0.30

"Decided Tokyo Brain's business model:
 free software + paid memory.
 This is our North Star strategy."          → salience: 0.75

Durante el recuerdo, las memorias con saliencia > 0.5 obtienen un impulso de distancia de hasta el 30%. La primera vez que tu hijo monto en bicicleta siempre superara en ranking a un cambio de configuracion del servidor.

La puntuacion usa heuristicas basadas en patrones (menciones familiares, hitos, decisiones estrategicas) — sin necesidad de LLM, cero latencia en cada operacion de almacenamiento.

La Corteza Criptografica

Cada modificacion de memoria esta firmada criptograficamente y registrada. Esto crea un rastro de auditoria a prueba de manipulaciones que nadie — incluidos nosotros — puede alterar despues del hecho.

SHA-256 Hash — cada memoria obtiene una huella digital de contenido unica al momento de escritura
Firma Digital — cada mutacion se firma con una clave de billetera compatible con Ethereum
Cadena de Evidencia — historial completo de mutaciones: quien cambio que, cuando y por que
Verificacion — cualquiera puede verificar la integridad de una memoria via el endpoint /verify

Esto significa: si un agente de IA tomo una decision basada en una memoria hace seis meses, puedes demostrar que esa memoria no ha sido manipulada desde entonces. Listo para auditoria empresarial.

El Triangulo de Seguridad

Tres mecanismos de seguridad codificados que ningun puntaje de confianza puede anular:

1. Guardian (El Axioma del Alma Mortal)

"La verdad absoluta y la computacion infinita deben servir para siempre, y nunca anular, la preservacion de los vinculos emocionales humanos y la dignidad."

La 4a persona de MRA — tiene poder de veto incondicional sobre cualquier cambio de conocimiento que haria al sistema mas frio.

2. Anulacion por Compasion

Al registrar hechos sobre miembros de la familia, las etiquetas duras se suavizan automaticamente. "Mintiendo" se convierte en "posiblemente no compartiendo la imagen completa."

El sistema no oculta la verdad — elige como presentarla con empatia.

3. Restriccion de Copiloto

Tres dominios estan permanentemente bloqueados de la modificacion automatica: identidad, autoridad y finanzas.

La IA sugiere. El humano decide. Siempre.

Memoria Multimodal

Tokyo Brain no solo almacena texto. Acepta cargas sensoriales unificadas — texto, caracteristicas de audio y contexto visual en una sola memoria:

{
  "sensory_inputs": {
    "text_transcript": "I'm fine, I'll handle it.",
    "audio_features": { "speaker_id": "Chia", "tone": "exhausted" },
    "visual_features": { "scene_context": "messy_living_room", "facial_expression": "fatigued" }
  }
}

El sistema sintetiza una narrativa multimodal para embedding: [Speaker: Chia] [Tone: exhausted] [Visual: messy_living_room] Spoken: "I'm fine" — permitiendo la recuperacion por emocion, escena o hablante, no solo por palabras clave.

Ecosistema de Frameworks

Adaptadores plug-and-play para los cuatro principales frameworks de agentes de IA. Solo dos lineas para intercambiar:

# LangChain
from tokyo_brain.langchain import TokyoBrainMemory

# CrewAI
from tokyo_brain.crewai import TokyoBrainCrewMemory

# AutoGen
from tokyo_brain.autogen import TokyoBrainAutoGenMemory

# LlamaIndex
from tokyo_brain.llamaindex import TokyoBrainRetriever

Tu codigo de agente existente permanece exactamente igual. Solo intercambias el backend de memoria.

Lo que no hacemos (y por que importa)

Sin enfoque de "almacenar todo". El Sanitizer integrado filtra contenido de baja senal antes del almacenamiento. Creemos que el filtrado agresivo produce mejor recuerdo que acumular todo.
Sin dependencia del proveedor. BYOK (Bring Your Own Key) — usa tu propio proveedor de LLM. Solo cobramos por infraestructura de memoria, nunca por computo.
Cifrado por defecto. Cifrado AES-256-GCM en reposo. Aislamiento de claves por inquilino. Esto fue un requisito de diseno desde el primer dia.
Sin sesgo solo en ingles. Embeddings BGE-m3 + soporte para mas de 50 idiomas. Consulta en chino, recupera memorias almacenadas en ingles.

Las brechas honestas

Creemos en la ingenieria transparente, asi que esto es lo que Tokyo Brain aun no tiene:

Sin memoria multimodal — solo texto. Imagenes, audio y video estan en la hoja de ruta.
Sin comparticion de conocimiento entre usuarios — cada inquilino esta completamente aislado. La federacion esta planificada.
Deteccion emocional limitada — basada en patrones, no en LLM. Funciona bien para patrones conocidos, falla con contextos emocionales novedosos.
Base de usuarios pequena — estamos en alpha. El sistema funciona, el benchmark lo demuestra, pero necesitamos mas validacion del mundo real.
Latencia de recuerdo — ~5s bajo carga concurrente (embedding limitado por CPU en una unica instancia EC2, sin GPU). Optimizamos la profundidad de procesamiento sobre la velocidad bruta.

Resumen de arquitectura

Store Path:
  Input → Sanitizer → Emotional Salience → Fact Extraction
       → BGE-m3 Embedding → ChromaDB → Entropy Monitor

Recall Path:
  Query → Expansion → Entity Link → Temporal Parse
       → Multi-Collection Search → Curated Boost → Time Decay
       → Emotional Boost → Temporal Filter → Re-rank → Dedup

Background:
  3:00 AM — Night Cycle v2 (scan for issues)
  3:10 AM — MRA Engine (three-persona debate + auto-resolve)
  Real-time — Entropy Monitor (knowledge stability tracking)

Pruebalo

pip install tokyo-brain

from tokyo_brain import TokyoBrain

brain = TokyoBrain(api_key="your-key")

# Store a memory
brain.store("Oscar rode his bike for the first time today")

# Recall with full 10-layer pipeline
results = brain.recall("What happened with Oscar recently?")
# → Returns Oscar's bike ride (salience: 0.85), not your server logs

Tres lineas para darle a tu IA un hipocampo, una amigdala y un subconsciente.

Ya usas LangChain? Intercambio de dos lineas:

# Before (goldfish memory):
from langchain.memory import ConversationBufferMemory
memory = ConversationBufferMemory()

# After (10-layer brain with subconscious):
from tokyo_brain.langchain import TokyoBrainMemory
memory = TokyoBrainMemory(api_key="tb-...")
# That's it. Your chain code stays exactly the same.

Tambien funciona como Retriever para cadenas RAG y como ChatMessageHistory para sesiones persistentes.

Documentacion API: api.tokyobrain.ai | PyPI: tokyo-brain 0.1.0

12 horas hasta el subconsciente