Два месяца назад у каждого продукта памяти ИИ, который мы тестировали, была одна и та же проблема: они хранили всё и не понимали ничего. Стандартные подходы RAG одинаково загружают каждый фрагмент разговора в векторную БД, что приводит к раздуванию контекста и деградации рассуждений со временем. Шифрование и изоляция арендаторов часто были либо недоступны, либо не документированы, либо неясны.
Поэтому мы создали Tokyo Brain с нуля. За 12 часов результат вырос с 46% до 83,8% на LongMemEval — самый высокий балл, который мы наблюдали в наших воспроизведениях на данный момент.
Но это не история о баллах бенчмарка. Это история о том, что происходит, когда вы перестаёте строить базы данных и начинаете строить мозги.
Бенчмарк, с которого всё началось
LongMemEval — это набор из 500 вопросов, разработанный исследователями для оценки долговременной памяти в системах ИИ. Он измеряет шесть когнитивных измерений:
| Измерение | Tokyo Brain | Что тестирует |
|---|---|---|
| Предпочтения в одной сессии | 100% (30/30) | «Что предпочитает этот пользователь?» |
| Временное рассуждение | 89% (118/133) | «Когда произошло X относительно Y?» |
| Обновление знаний | 82% (64/78) | «X изменилось с A на B — что актуально?» |
| Мультисессия | 82% (109/133) | «В 5 разговорах, что последовательно?» |
| Пользователь в одной сессии | 80% (56/70) | «Что пользователь сказал о себе?» |
| Ассистент в одной сессии | 75% (42/56) | «Что рекомендовал ИИ?» |
Для справки, когда мы запускали тот же бенчмарк на других системах с их конфигурациями по умолчанию:
| Система | Результат | Стоимость вывода | |
|---|---|---|---|
| 1 | Tokyo Brain | 83,8% | $0 |
| 2 | Supermemory | 81,6% | $$$ |
| 3 | Zep | 71,2% | $$ |
| 4 | Mem0 | 49,0% | $ |
Баллы из наших внутренних воспроизведений с использованием конфигураций по умолчанию. Мы планируем открыть исходный код инструмента оценки, чтобы сообщество могло верифицировать и воспроизвести эти результаты.
Мы прогнали все 500 вопросов, а не выборочное подмножество. Тестовые данные взяты с HuggingFace. Методология: каждый вопрос — это запрос на извлечение воспоминаний, ранее сохранённых из синтетических мультисессионных разговоров.
Почему 83,8%? Потому что мы скопировали мозг
Большинство систем памяти ИИ — это прославленные векторные базы данных. Сохрани эмбеддинг, извлеки по косинусному сходству, готово. Это как построить библиотеку без библиотекаря — можно найти книги по цвету, но не по смыслу.
Архитектура Tokyo Brain смоделирована по биологическим структурам, которые обеспечивают реальную работу человеческой памяти:
Biological Brain Tokyo Brain ───────────────────── ──────────────────────────────── Prefrontal Cortex Redis Hot Memory (working memory) (bounded short-term working set) Hippocampus Fact Extraction → answer_cards (sleep consolidation) (distill noise into facts) Synaptic Network Query Expansion + Entity Link (associative recall) (one word activates a web) Synaptic Pruning Time Decay (healthy forgetting) (old info loses priority) Amygdala Emotional Salience Scoring (emotional tagging) (family > server configs) Default Mode Network Night Cycle + MRA Engine (subconscious) (self-heals while you sleep)
Эти модули реализованы как отдельные компоненты в нашей продуктовой системе. Давайте рассмотрим наиболее важные из них.
Путь: от 46% до 83,8%
10-уровневый конвейер извлечения
Когда вы запрашиваете Tokyo Brain, ваш вопрос не просто попадает в векторную базу данных. Он проходит через 10 стадий обработки — каждая из которых спроектирована для решения конкретного режима сбоя, обнаруженного во время тестирования бенчмарка. Без вызовов LLM. Без дорогих моделей переранжирования. Чистая инженерия извлечения.
Каждый уровень был добавлен для исправления конкретного сбоя бенчмарка. Совокупный эффект: с 46% до 83,8% за одну сессию разработки.
Математика: ожидаемая полезность, а не грубая сила
Большинство RAG-систем извлекают воспоминания на основе единственного сигнала: семантического сходства. Это фундаментальный изъян для сложного познания — он путает релевантность (семантическое пересечение) с полезностью (ценностью для текущей задачи).
За конвейером стоит простой принцип, вдохновлённый идеями ожидаемой полезности из когнитивных наук и теории принятия решений — представление о том, что извлечение памяти должно максимизировать ожидаемую ценность возвращаемой информации, а не просто минимизировать векторное расстояние:
| Компонент | Слой Tokyo Brain | Что делает |
|---|---|---|
| P(relevant) | Query Expansion + Entity Linking | Мульти-запросный семантический поиск с разрешением псевдонимов |
| V(information) | Curated Boost | Приоритет проверенным фактам и карточкам ответов |
| T(freshness) | Time Decay | Более новые воспоминания получают меньшие расстояния |
| E(emotion) | Emotional Salience | Семейные воспоминания опережают конфигурации серверов |
Ключевое понимание: извлечение — это не задача поиска, а задача распределения ресурсов. При ограниченном контекстном окне, какие воспоминания максимизируют общую ожидаемую полезность для текущей задачи? Большинство систем останавливаются на P (косинусное сходство). Некоторые добавляют T (давность). Мы не видели другого продукта, который включает E (эмоциональную значимость) — оценку воспоминаний по тому, насколько они важны для вас как человека, а не только по семантической близости к запросу.
Подсознание: Night Cycle + MRA Engine
Здесь Tokyo Brain расходится с каждым другим продуктом на рынке.
Каждая система памяти ИИ пассивна. Вы спрашиваете — она извлекает. Вы не спрашиваете — она бездействует. Как библиотека без библиотекаря — книги никогда не реорганизуются, пока кто-то не войдёт.
Человеческий мозг работает не так. Ваша сеть пассивного режима (Default Mode Network, DMN) активируется, когда вы бездействуете — во время сна, мечтаний или в душе. Она консолидирует воспоминания, разрешает противоречия и иногда порождает моменты «эврика».
Мы построили цифровой эквивалент.
Night Cycle v2 (запускается ежедневно в 3:00 UTC)
Python-скрипт, который сканирует всю базу знаний в поисках:
- Почти-дубликатов — карточек с >88% сходства эмбеддингов, кандидатов на слияние
- Устаревших карточек — фактов старше 30 дней, где существует более новая информация, требуют обновления
- Осиротевших решений — важных решений, записанных в ежедневных записях, но никогда не дистиллированных в постоянные знания
- Мусорных карточек — записей слишком коротких, слишком длинных или состоящих преимущественно из форматирующего шума
MRA Curiosity Engine (запускается после Night Cycle)
Когда Night Cycle находит проблемы, движок MRA не просто помечает их — он обсуждает и решает их с помощью трибунала из трёх персон:
В наших начальных тестовых прогонах движок MRA успешно автоматически объединил дублирующиеся карточки, пометил неоднозначные случаи для проверки человеком и — что примечательно — персона Skeptic правильно идентифицировала галлюцинацию в одном предложенном слиянии, предотвратив запись некорректных данных.
Рефлекс тревоги: Монитор энтропии
Night Cycle работает по расписанию cron — цифровой будильник. Но человеческий мозг не ждёт будильников. Он замечает, когда что-то не так, в реальном времени.
Entropy Monitor даёт Tokyo Brain эту способность. Он отслеживает каждую операцию сохранения памяти в скользящем окне 20 минут. Когда он обнаруживает множественные сохранения, попадающие в один тематический кластер (>=4 в окне), он генерирует предупреждение:
{
"status": "ELEVATED",
"topic": "brain|pricing|tokyo|update|version",
"count": 5,
"message": "Pricing strategy is changing rapidly. Consider consolidating."
}
Это не cron-задача. Это нервная система реального времени. Мозг становится «тревожным», когда знания становятся нестабильными — точно как биологический эпистемический стресс.
Эмоциональная кора
Последний элемент: не все воспоминания должны оцениваться одинаково.
При сохранении воспоминания Tokyo Brain автоматически вычисляет показатель эмоциональной значимости (0.0 - 1.0):
"Oscar rode a bike for the first time. The whole family celebrated. Mom cried." → salience: 0.85 "Caddy upgraded from 2.10 to 2.11.2. Reverse proxy restarted on port 443." → salience: 0.30 "Decided Tokyo Brain's business model: free software + paid memory. This is our North Star strategy." → salience: 0.75
При извлечении воспоминания со значимостью > 0,5 получают буст расстояния до 30%. Первая поездка вашего ребёнка на велосипеде всегда будет превосходить изменение конфигурации сервера.
Оценка использует эвристики на основе паттернов (упоминания семьи, вехи, стратегические решения) — без LLM, нулевая задержка на каждой операции сохранения.
Криптографическая кора
Каждая модификация памяти криптографически подписана и зарегистрирована. Это создаёт защищённый от подделки аудиторский след, который никто — включая нас — не может изменить задним числом.
- SHA-256 Хеш — каждое воспоминание получает уникальный отпечаток содержимого при записи
- Цифровая подпись — каждая мутация подписывается ключом кошелька, совместимого с Ethereum
- Цепочка доказательств — полная история мутаций: кто изменил что, когда и почему
- Верификация — любой может проверить целостность воспоминания через endpoint
/verify
Это означает: если ИИ-агент принял решение на основе воспоминания шесть месяцев назад, вы можете доказать, что это воспоминание не было подделано с тех пор. Готово для корпоративного аудита.
Треугольник безопасности
Три жёстко закодированных механизма безопасности, которые не может переопределить ни один показатель уверенности:
Мультимодальная память
Tokyo Brain хранит не только текст. Он принимает унифицированные сенсорные данные — текст, аудио-характеристики и визуальный контекст в одном воспоминании:
{
"sensory_inputs": {
"text_transcript": "I'm fine, I'll handle it.",
"audio_features": { "speaker_id": "Chia", "tone": "exhausted" },
"visual_features": { "scene_context": "messy_living_room", "facial_expression": "fatigued" }
}
}
Система синтезирует мультимодальное повествование для встраивания: [Speaker: Chia] [Tone: exhausted] [Visual: messy_living_room] Spoken: "I'm fine" — позволяя поиск по эмоции, сцене или говорящему, а не только по ключевым словам.
Экосистема фреймворков
Готовые адаптеры для четырёх основных фреймворков ИИ-агентов. Замените всего две строки:
# LangChain from tokyo_brain.langchain import TokyoBrainMemory # CrewAI from tokyo_brain.crewai import TokyoBrainCrewMemory # AutoGen from tokyo_brain.autogen import TokyoBrainAutoGenMemory # LlamaIndex from tokyo_brain.llamaindex import TokyoBrainRetriever
Ваш существующий код агента остаётся в точности таким же. Вы просто заменяете бэкенд памяти.
Чего мы не делаем (и почему это важно)
- Никакого подхода «сохраняй всё». Встроенный Sanitizer фильтрует контент с низким сигналом перед сохранением. Мы считаем, что агрессивная фильтрация обеспечивает лучшее извлечение, чем накопление всего подряд.
- Никакой привязки к вендору. BYOK (Bring Your Own Key) — используйте своего провайдера LLM. Мы берём плату только за инфраструктуру памяти, никогда за вычисления.
- Шифрование по умолчанию. Шифрование AES-256-GCM в состоянии покоя. Изоляция ключей по арендаторам. Это было требованием проектирования с первого дня.
- Никакого смещения только на английский. Эмбеддинги BGE-m3 + поддержка более 50 языков. Запрашивайте на китайском, извлекайте воспоминания, сохранённые на английском.
Честные пробелы
Мы верим в прозрачную инженерию, поэтому вот чего в Tokyo Brain пока нет:
- Нет мультимодальной памяти — только текст. Изображения, аудио и видео — в дорожной карте.
- Нет кросс-пользовательского обмена знаниями — каждый арендатор полностью изолирован. Федерация запланирована.
- Ограниченное распознавание эмоций — на основе паттернов, не на основе LLM. Хорошо работает для известных паттернов, пропускает новые эмоциональные контексты.
- Небольшая пользовательская база — мы в альфе. Система работает, бенчмарк это доказывает, но нам нужно больше валидации в реальном мире.
- Задержка извлечения — ~5с при конкурентной нагрузке (CPU-ограниченные эмбеддинги на одном инстансе EC2, без GPU). Мы оптимизировали глубину обработки, а не чистую скорость.
Обзор архитектуры
Store Path:
Input → Sanitizer → Emotional Salience → Fact Extraction
→ BGE-m3 Embedding → ChromaDB → Entropy Monitor
Recall Path:
Query → Expansion → Entity Link → Temporal Parse
→ Multi-Collection Search → Curated Boost → Time Decay
→ Emotional Boost → Temporal Filter → Re-rank → Dedup
Background:
3:00 AM — Night Cycle v2 (scan for issues)
3:10 AM — MRA Engine (three-persona debate + auto-resolve)
Real-time — Entropy Monitor (knowledge stability tracking)
Попробуйте
pip install tokyo-brain
from tokyo_brain import TokyoBrain
brain = TokyoBrain(api_key="your-key")
# Store a memory
brain.store("Oscar rode his bike for the first time today")
# Recall with full 10-layer pipeline
results = brain.recall("What happened with Oscar recently?")
# → Returns Oscar's bike ride (salience: 0.85), not your server logs
Три строки, чтобы дать вашему ИИ гиппокамп, миндалевидное тело и подсознание.
Уже используете LangChain? Замена в две строки:
# Before (goldfish memory): from langchain.memory import ConversationBufferMemory memory = ConversationBufferMemory() # After (10-layer brain with subconscious): from tokyo_brain.langchain import TokyoBrainMemory memory = TokyoBrainMemory(api_key="tb-...") # That's it. Your chain code stays exactly the same.
Также работает как Retriever для RAG-цепочек и как ChatMessageHistory для постоянных сессий.
API Docs: api.tokyobrain.ai | PyPI: tokyo-brain 0.1.0