Hace dos meses, todos los productos de memoria AI que probamos tenian el mismo problema: almacenaban todo y no entendian nada. Los enfoques RAG estandar meten cada fragmento de conversacion en una base de datos vectorial por igual, lo que provoca inflacion de contexto y degradacion del razonamiento con el tiempo. El cifrado y el aislamiento de inquilinos a menudo no estaban disponibles, no estaban documentados o no eran claros.
Asi que construimos Tokyo Brain desde cero. En 12 horas, paso del 46% al 83.8% en LongMemEval — la puntuacion mas alta que hemos observado en nuestras ejecuciones de reproduccion hasta ahora.
Pero esta no es una historia sobre una puntuacion de benchmark. Es sobre lo que sucede cuando dejas de construir bases de datos y empiezas a construir cerebros.
El benchmark que lo empezo todo
LongMemEval es un conjunto de pruebas de 500 preguntas disenado por investigadores para evaluar la memoria a largo plazo en sistemas de IA. Mide seis dimensiones cognitivas:
| Dimension | Tokyo Brain | Que evalua |
|---|---|---|
| Preferencia de sesion unica | 100% (30/30) | "Que prefiere este usuario?" |
| Razonamiento temporal | 89% (118/133) | "Cuando ocurrio X en relacion con Y?" |
| Actualizacion de conocimiento | 82% (64/78) | "X cambio de A a B — cual es el actual?" |
| Multi-sesion | 82% (109/133) | "En 5 conversaciones, que es consistente?" |
| Sesion unica - usuario | 80% (56/70) | "Que dijo el usuario sobre si mismo?" |
| Sesion unica - asistente | 75% (42/56) | "Que recomendo la IA?" |
Como referencia, cuando ejecutamos el mismo benchmark contra otros sistemas usando sus configuraciones predeterminadas:
| Sistema | Puntuacion | Coste de inferencia | |
|---|---|---|---|
| 1 | Tokyo Brain | 83.8% | $0 |
| 2 | Supermemory | 81.6% | $$$ |
| 3 | Zep | 71.2% | $$ |
| 4 | Mem0 | 49.0% | $ |
Puntuaciones de nuestras ejecuciones de reproduccion internas usando configuraciones predeterminadas. Planeamos hacer open-source el arnes de evaluacion para que la comunidad pueda verificar y reproducir estos resultados.
Ejecutamos las 500 preguntas completas, no un subconjunto seleccionado. Los datos de prueba provienen de HuggingFace. Metodologia: cada pregunta es una consulta de recuerdo contra memorias previamente almacenadas de conversaciones sinteticas multi-sesion.
Por que 83.8%? Porque copiamos el cerebro
La mayoria de los sistemas de memoria AI son bases de datos vectoriales glorificadas. Almacenar embedding, recuperar por similitud coseno, listo. Es como construir una biblioteca sin bibliotecario — puedes encontrar libros por color, pero no por significado.
La arquitectura de Tokyo Brain esta modelada segun las estructuras biologicas que hacen que la memoria humana realmente funcione:
Biological Brain Tokyo Brain ───────────────────── ──────────────────────────────── Prefrontal Cortex Redis Hot Memory (working memory) (bounded short-term working set) Hippocampus Fact Extraction → answer_cards (sleep consolidation) (distill noise into facts) Synaptic Network Query Expansion + Entity Link (associative recall) (one word activates a web) Synaptic Pruning Time Decay (healthy forgetting) (old info loses priority) Amygdala Emotional Salience Scoring (emotional tagging) (family > server configs) Default Mode Network Night Cycle + MRA Engine (subconscious) (self-heals while you sleep)
Estos modulos estan implementados como componentes separados en nuestro sistema de produccion. Permiteme guiarte por los mas importantes.
El viaje: del 46% al 83.8%
El pipeline de recuerdo de 10 capas
Cuando consultas Tokyo Brain, tu pregunta no simplemente llega a una base de datos vectorial. Pasa por 10 etapas de procesamiento — cada una disenada para resolver un modo de fallo especifico que observamos durante las pruebas de benchmark. Sin llamadas LLM. Sin modelos costosos de re-ranking. Ingenieria de recuperacion pura.
Cada capa fue anadida para corregir un fallo especifico del benchmark. El efecto combinado: del 46% al 83.8% en una sola sesion de desarrollo.
Las matematicas: utilidad esperada, no fuerza bruta
La mayoria de los sistemas RAG recuperan memorias basandose en una sola senal: similitud semantica. Esto es fundamentalmente defectuoso para la cognicion compleja — confunde relevancia (solapamiento semantico) con utilidad (valor para la tarea actual).
Detras del pipeline hay un principio simple tomado de la ciencia cognitiva y la teoria de decisiones — la nocion de que la recuperacion de memoria deberia maximizar el valor esperado de la informacion devuelta, no solo minimizar la distancia vectorial:
| Componente | Capa de Tokyo Brain | Funcion |
|---|---|---|
| P(relevant) | Query Expansion + Entity Linking | Busqueda semantica multi-consulta con resolucion de alias |
| V(information) | Curated Boost | Hechos verificados y tarjetas de respuesta priorizadas |
| T(freshness) | Time Decay | Memorias mas recientes obtienen puntuaciones de distancia mas bajas |
| E(emotion) | Emotional Salience | Memorias familiares superan configuraciones del servidor |
La idea clave: la recuperacion no es un problema de busqueda — es un problema de asignacion de recursos. Dada una ventana de contexto limitada, que memorias maximizan la utilidad esperada total para la tarea actual? La mayoria de los sistemas se detienen en P (similitud coseno). Algunos anaden T (recencia). No hemos visto otro producto que incorpore E (saliencia emocional) — puntuando las memorias por cuanto importan a ti como humano, no solo por cuan semanticamente cercanas estan a tu consulta.
El subconsciente: Night Cycle + motor MRA
Aqui es donde Tokyo Brain diverge de cualquier otro producto del mercado.
Todo sistema de memoria AI es pasivo. Preguntas, recupera. No preguntas, permanece inactivo. Como una biblioteca sin bibliotecario — los libros nunca se reorganizan a menos que alguien entre.
El cerebro humano no funciona asi. Tu Red de Modo Predeterminado (DMN) se activa cuando estas inactivo — durante el sueno, sonando despierto o en la ducha. Consolida memorias, resuelve contradicciones y a veces produce momentos "eureka".
Construimos el equivalente digital.
Night Cycle v2 (se ejecuta diariamente a las 3 AM UTC)
Un script de Python que escanea toda la base de conocimiento buscando:
- Cuasi-duplicados — tarjetas con >88% de similitud de embedding, candidatos a fusion
- Tarjetas obsoletas — hechos de mas de 30 dias donde existe informacion mas reciente, necesitan actualizacion
- Decisiones huerfanas — decisiones importantes registradas en registros diarios pero nunca destiladas en conocimiento permanente
- Tarjetas basura — entradas demasiado cortas, demasiado largas o mayormente ruido de formato
Motor de curiosidad MRA (se ejecuta despues del Night Cycle)
Cuando el Night Cycle encuentra problemas, el motor MRA no solo los marca — los debate y resuelve usando un tribunal de tres personas:
En nuestras ejecuciones iniciales de staging, el motor MRA fusiono exitosamente tarjetas duplicadas automaticamente, marco casos ambiguos para revision humana y — notablemente — la persona Skeptic identifico correctamente una alucinacion en una fusion propuesta, previniendo que datos incorrectos fueran escritos.
El reflejo de ansiedad: monitor de entropia
El Night Cycle se ejecuta segun un cronograma cron — un reloj despertador digital. Pero los cerebros humanos no esperan alarmas. Notan cuando algo se siente mal en tiempo real.
El Monitor de Entropia le da a Tokyo Brain esta capacidad. Rastrea cada operacion de almacenamiento de memoria en una ventana deslizante de 20 minutos. Cuando detecta multiples almacenamientos que afectan al mismo cluster de temas (>=4 en la ventana), dispara una alerta:
{
"status": "ELEVATED",
"topic": "brain|pricing|tokyo|update|version",
"count": 5,
"message": "Pricing strategy is changing rapidly. Consider consolidating."
}
Esto no es un trabajo cron. Es un sistema nervioso en tiempo real. El cerebro se pone "ansioso" cuando el conocimiento se vuelve inestable — exactamente como el estres epistemico biologico.
La corteza emocional
La pieza final: no todas las memorias deben ser tratadas por igual.
Cuando se almacena una memoria, Tokyo Brain calcula automaticamente una puntuacion de saliencia emocional (0.0 - 1.0):
"Oscar rode a bike for the first time. The whole family celebrated. Mom cried." → salience: 0.85 "Caddy upgraded from 2.10 to 2.11.2. Reverse proxy restarted on port 443." → salience: 0.30 "Decided Tokyo Brain's business model: free software + paid memory. This is our North Star strategy." → salience: 0.75
Durante el recuerdo, las memorias con saliencia > 0.5 obtienen un impulso de distancia de hasta el 30%. La primera vez que tu hijo monto en bicicleta siempre superara en ranking a un cambio de configuracion del servidor.
La puntuacion usa heuristicas basadas en patrones (menciones familiares, hitos, decisiones estrategicas) — sin necesidad de LLM, cero latencia en cada operacion de almacenamiento.
La Corteza Criptografica
Cada modificacion de memoria esta firmada criptograficamente y registrada. Esto crea un rastro de auditoria a prueba de manipulaciones que nadie — incluidos nosotros — puede alterar despues del hecho.
- SHA-256 Hash — cada memoria obtiene una huella digital de contenido unica al momento de escritura
- Firma Digital — cada mutacion se firma con una clave de billetera compatible con Ethereum
- Cadena de Evidencia — historial completo de mutaciones: quien cambio que, cuando y por que
- Verificacion — cualquiera puede verificar la integridad de una memoria via el endpoint
/verify
Esto significa: si un agente de IA tomo una decision basada en una memoria hace seis meses, puedes demostrar que esa memoria no ha sido manipulada desde entonces. Listo para auditoria empresarial.
El Triangulo de Seguridad
Tres mecanismos de seguridad codificados que ningun puntaje de confianza puede anular:
Memoria Multimodal
Tokyo Brain no solo almacena texto. Acepta cargas sensoriales unificadas — texto, caracteristicas de audio y contexto visual en una sola memoria:
{
"sensory_inputs": {
"text_transcript": "I'm fine, I'll handle it.",
"audio_features": { "speaker_id": "Chia", "tone": "exhausted" },
"visual_features": { "scene_context": "messy_living_room", "facial_expression": "fatigued" }
}
}
El sistema sintetiza una narrativa multimodal para embedding: [Speaker: Chia] [Tone: exhausted] [Visual: messy_living_room] Spoken: "I'm fine" — permitiendo la recuperacion por emocion, escena o hablante, no solo por palabras clave.
Ecosistema de Frameworks
Adaptadores plug-and-play para los cuatro principales frameworks de agentes de IA. Solo dos lineas para intercambiar:
# LangChain from tokyo_brain.langchain import TokyoBrainMemory # CrewAI from tokyo_brain.crewai import TokyoBrainCrewMemory # AutoGen from tokyo_brain.autogen import TokyoBrainAutoGenMemory # LlamaIndex from tokyo_brain.llamaindex import TokyoBrainRetriever
Tu codigo de agente existente permanece exactamente igual. Solo intercambias el backend de memoria.
Lo que no hacemos (y por que importa)
- Sin enfoque de "almacenar todo". El Sanitizer integrado filtra contenido de baja senal antes del almacenamiento. Creemos que el filtrado agresivo produce mejor recuerdo que acumular todo.
- Sin dependencia del proveedor. BYOK (Bring Your Own Key) — usa tu propio proveedor de LLM. Solo cobramos por infraestructura de memoria, nunca por computo.
- Cifrado por defecto. Cifrado AES-256-GCM en reposo. Aislamiento de claves por inquilino. Esto fue un requisito de diseno desde el primer dia.
- Sin sesgo solo en ingles. Embeddings BGE-m3 + soporte para mas de 50 idiomas. Consulta en chino, recupera memorias almacenadas en ingles.
Las brechas honestas
Creemos en la ingenieria transparente, asi que esto es lo que Tokyo Brain aun no tiene:
- Sin memoria multimodal — solo texto. Imagenes, audio y video estan en la hoja de ruta.
- Sin comparticion de conocimiento entre usuarios — cada inquilino esta completamente aislado. La federacion esta planificada.
- Deteccion emocional limitada — basada en patrones, no en LLM. Funciona bien para patrones conocidos, falla con contextos emocionales novedosos.
- Base de usuarios pequena — estamos en alpha. El sistema funciona, el benchmark lo demuestra, pero necesitamos mas validacion del mundo real.
- Latencia de recuerdo — ~5s bajo carga concurrente (embedding limitado por CPU en una unica instancia EC2, sin GPU). Optimizamos la profundidad de procesamiento sobre la velocidad bruta.
Resumen de arquitectura
Store Path:
Input → Sanitizer → Emotional Salience → Fact Extraction
→ BGE-m3 Embedding → ChromaDB → Entropy Monitor
Recall Path:
Query → Expansion → Entity Link → Temporal Parse
→ Multi-Collection Search → Curated Boost → Time Decay
→ Emotional Boost → Temporal Filter → Re-rank → Dedup
Background:
3:00 AM — Night Cycle v2 (scan for issues)
3:10 AM — MRA Engine (three-persona debate + auto-resolve)
Real-time — Entropy Monitor (knowledge stability tracking)
Pruebalo
pip install tokyo-brain
from tokyo_brain import TokyoBrain
brain = TokyoBrain(api_key="your-key")
# Store a memory
brain.store("Oscar rode his bike for the first time today")
# Recall with full 10-layer pipeline
results = brain.recall("What happened with Oscar recently?")
# → Returns Oscar's bike ride (salience: 0.85), not your server logs
Tres lineas para darle a tu IA un hipocampo, una amigdala y un subconsciente.
Ya usas LangChain? Intercambio de dos lineas:
# Before (goldfish memory): from langchain.memory import ConversationBufferMemory memory = ConversationBufferMemory() # After (10-layer brain with subconscious): from tokyo_brain.langchain import TokyoBrainMemory memory = TokyoBrainMemory(api_key="tb-...") # That's it. Your chain code stays exactly the same.
Tambien funciona como Retriever para cadenas RAG y como ChatMessageHistory para sesiones persistentes.
Documentacion API: api.tokyobrain.ai | PyPI: tokyo-brain 0.1.0