12 часов до подсознания: как мы создали движок памяти ИИ, вдохновлённый биологией

83.8%

Результат LongMemEval

Два месяца назад у каждого продукта памяти ИИ, который мы тестировали, была одна и та же проблема: они хранили всё и не понимали ничего. Стандартные подходы RAG одинаково загружают каждый фрагмент разговора в векторную БД, что приводит к раздуванию контекста и деградации рассуждений со временем. Шифрование и изоляция арендаторов часто были либо недоступны, либо не документированы, либо неясны.

Поэтому мы создали Tokyo Brain с нуля. За 12 часов результат вырос с 46% до 83,8% на LongMemEval — самый высокий балл, который мы наблюдали в наших воспроизведениях на данный момент.

Но это не история о баллах бенчмарка. Это история о том, что происходит, когда вы перестаёте строить базы данных и начинаете строить мозги.

Бенчмарк, с которого всё началось

LongMemEval — это набор из 500 вопросов, разработанный исследователями для оценки долговременной памяти в системах ИИ. Он измеряет шесть когнитивных измерений:

Измерение	Tokyo Brain	Что тестирует
Предпочтения в одной сессии	100% (30/30)	«Что предпочитает этот пользователь?»
Временное рассуждение	89% (118/133)	«Когда произошло X относительно Y?»
Обновление знаний	82% (64/78)	«X изменилось с A на B — что актуально?»
Мультисессия	82% (109/133)	«В 5 разговорах, что последовательно?»
Пользователь в одной сессии	80% (56/70)	«Что пользователь сказал о себе?»
Ассистент в одной сессии	75% (42/56)	«Что рекомендовал ИИ?»

Для справки, когда мы запускали тот же бенчмарк на других системах с их конфигурациями по умолчанию:

	Система	Результат	Стоимость вывода
1	Tokyo Brain	83,8%	$0
2	Supermemory	81,6%	$$$
3	Zep	71,2%	$$
4	Mem0	49,0%	$

Баллы из наших внутренних воспроизведений с использованием конфигураций по умолчанию. Мы планируем открыть исходный код инструмента оценки, чтобы сообщество могло верифицировать и воспроизвести эти результаты.

Мы прогнали все 500 вопросов, а не выборочное подмножество. Тестовые данные взяты с HuggingFace. Методология: каждый вопрос — это запрос на извлечение воспоминаний, ранее сохранённых из синтетических мультисессионных разговоров.

Почему 83,8%? Потому что мы скопировали мозг

Большинство систем памяти ИИ — это прославленные векторные базы данных. Сохрани эмбеддинг, извлеки по косинусному сходству, готово. Это как построить библиотеку без библиотекаря — можно найти книги по цвету, но не по смыслу.

Архитектура Tokyo Brain смоделирована по биологическим структурам, которые обеспечивают реальную работу человеческой памяти:

Biological Brain          Tokyo Brain
─────────────────────     ────────────────────────────────
Prefrontal Cortex         Redis Hot Memory
(working memory)          (bounded short-term working set)

Hippocampus               Fact Extraction → answer_cards
(sleep consolidation)     (distill noise into facts)

Synaptic Network          Query Expansion + Entity Link
(associative recall)      (one word activates a web)

Synaptic Pruning          Time Decay
(healthy forgetting)      (old info loses priority)

Amygdala                  Emotional Salience Scoring
(emotional tagging)       (family > server configs)

Default Mode Network      Night Cycle + MRA Engine
(subconscious)            (self-heals while you sleep)

Эти модули реализованы как отдельные компоненты в нашей продуктовой системе. Давайте рассмотрим наиболее важные из них.

Путь: от 46% до 83,8%

Час 046%Базовая линия — необработанный семантический поиск

Час 260%Query Expansion + Entity Linking + Fact Extraction

Час 468%Time Decay + Dedup + Re-Ranking

Час 672%Session Decomposition + Preference Boost

Час 874%Temporal Ordering + улучшения Matching

Час 1081%Полная валидация 500 вопросов

Час 1283.8%Финальная оптимизация — 83,8%

10-уровневый конвейер извлечения

Когда вы запрашиваете Tokyo Brain, ваш вопрос не просто попадает в векторную базу данных. Он проходит через 10 стадий обработки — каждая из которых спроектирована для решения конкретного режима сбоя, обнаруженного во время тестирования бенчмарка. Без вызовов LLM. Без дорогих моделей переранжирования. Чистая инженерия извлечения.

Layer 1: Query Expansion

Проблема: Пользователь спрашивает «имя босса», но в памяти хранится «Manager: John»

Решение: Расширение каждого запроса до 4-6 вариантов с картами псевдонимов и синонимов

Эффект: +10-15% на вопросах о сущностях

Layer 2: Entity Linking

Проблема: Один и тот же человек имеет несколько имён на разных языках

Решение: 30+ двунаправленных сопоставлений сущностей

Эффект: Кросс-языковое извлечение резко возрастает

Layer 3: Temporal Parsing

Проблема: «Что мы обсуждали на прошлой неделе?» возвращает результаты двухмесячной давности

Решение: Парсинг временных выражений в диапазоны дат, поддержка китайского

Эффект: Временное рассуждение достигло 89%

Layer 4: Multi-Collection Search

Проблема: Ответы разбросаны по answer_cards, ежедневным записям и разговорам

Решение: BGE-m3 эмбеддинги, одновременный поиск по всем коллекциям

Эффект: +15-20% точности на вопросах одной сессии

Layer 5: Curated Boost

Проблема: Проверенные факты должны опережать логи чатов

Решение: 0.55x расстояние для курируемых карточек ответов (факты > необработанные разговоры)

Эффект: Ценные воспоминания стабильно всплывают первыми

Layer 6: Time Decay

Проблема: Январская цена конкурирует наравне с сегодняшней

Решение: Множители расстояния по возрасту — <1 день: 0.85x, <7 дней: 0.90x, <30 дней: 0.95x

Эффект: Обновление знаний достигло 100% в тестировании

Layer 7: Emotional Salience

Проблема: «Что важно для пользователя?» возвращает логи сервера вместо семейных моментов

Решение: Автооценка воспоминаний по эмоциональному весу — семья (0.85) опережает конфиги сервера (0.30)

Эффект: Воспоминания со значимостью > 0.5 получают до 30% буста расстояния

Layer 8: Temporal Filtering

Проблема: «Что было первым?» требует хронологического контекста

Решение: Результаты в диапазоне получают 0.35x буст, вне диапазона — 1.5x штраф

Эффект: Временное рассуждение достигло 89%

Layer 9: Sentence-Level Re-Ranking

Проблема: Найден правильный документ, но ответ в 7-м предложении из 12

Решение: Bigram-сопоставление с бонусами предпочтений/ассистента, извлечение фрагментов

Эффект: +5-10% на извлечении конкретных фраз

Layer 10: Dedup + Cap

Проблема: Один факт сохранён 3 раза, тратит слоты результатов

Решение: Кросс-коллекционная дедупликация, финальный результат: топ 15-20 воспоминаний

Эффект: Более чистые результаты, максимальная информационная плотность

Каждый уровень был добавлен для исправления конкретного сбоя бенчмарка. Совокупный эффект: с 46% до 83,8% за одну сессию разработки.

Математика: ожидаемая полезность, а не грубая сила

Большинство RAG-систем извлекают воспоминания на основе единственного сигнала: семантического сходства. Это фундаментальный изъян для сложного познания — он путает релевантность (семантическое пересечение) с полезностью (ценностью для текущей задачи).

За конвейером стоит простой принцип, вдохновлённый идеями ожидаемой полезности из когнитивных наук и теории принятия решений — представление о том, что извлечение памяти должно максимизировать ожидаемую ценность возвращаемой информации, а не просто минимизировать векторное расстояние:

Score(memory) = P(relevant) x V(information) x T(freshness) x E(emotion)

Компонент	Слой Tokyo Brain	Что делает
P(relevant)	Query Expansion + Entity Linking	Мульти-запросный семантический поиск с разрешением псевдонимов
V(information)	Curated Boost	Приоритет проверенным фактам и карточкам ответов
T(freshness)	Time Decay	Более новые воспоминания получают меньшие расстояния
E(emotion)	Emotional Salience	Семейные воспоминания опережают конфигурации серверов

Ключевое понимание: извлечение — это не задача поиска, а задача распределения ресурсов. При ограниченном контекстном окне, какие воспоминания максимизируют общую ожидаемую полезность для текущей задачи? Большинство систем останавливаются на P (косинусное сходство). Некоторые добавляют T (давность). Мы не видели другого продукта, который включает E (эмоциональную значимость) — оценку воспоминаний по тому, насколько они важны для вас как человека, а не только по семантической близости к запросу.

Подсознание: Night Cycle + MRA Engine

Здесь Tokyo Brain расходится с каждым другим продуктом на рынке.

Каждая система памяти ИИ пассивна. Вы спрашиваете — она извлекает. Вы не спрашиваете — она бездействует. Как библиотека без библиотекаря — книги никогда не реорганизуются, пока кто-то не войдёт.

Человеческий мозг работает не так. Ваша сеть пассивного режима (Default Mode Network, DMN) активируется, когда вы бездействуете — во время сна, мечтаний или в душе. Она консолидирует воспоминания, разрешает противоречия и иногда порождает моменты «эврика».

Мы построили цифровой эквивалент.

Night Cycle v2 (запускается ежедневно в 3:00 UTC)

Python-скрипт, который сканирует всю базу знаний в поисках:

Почти-дубликатов — карточек с >88% сходства эмбеддингов, кандидатов на слияние
Устаревших карточек — фактов старше 30 дней, где существует более новая информация, требуют обновления
Осиротевших решений — важных решений, записанных в ежедневных записях, но никогда не дистиллированных в постоянные знания
Мусорных карточек — записей слишком коротких, слишком длинных или состоящих преимущественно из форматирующего шума

MRA Curiosity Engine (запускается после Night Cycle)

Когда Night Cycle находит проблемы, движок MRA не просто помечает их — он обсуждает и решает их с помощью трибунала из трёх персон:

MRA Three-Persona Tribunal

Analyst: «Каковы фактические утверждения в каждом?»

Создаёт структурированную таблицу сравнения

Synthesizer: «Как объединить их в одну истину?»

Предлагает единую карточку

Skeptic: «Что не так с этим слиянием?»

Присваивает оценку уверенности (0-100)

Вердикт: >= 85 уверенность: автоисполнение | 50-84: на проверку человеку | < 50: пропустить, спросить человека

В наших начальных тестовых прогонах движок MRA успешно автоматически объединил дублирующиеся карточки, пометил неоднозначные случаи для проверки человеком и — что примечательно — персона Skeptic правильно идентифицировала галлюцинацию в одном предложенном слиянии, предотвратив запись некорректных данных.

Рефлекс тревоги: Монитор энтропии

Night Cycle работает по расписанию cron — цифровой будильник. Но человеческий мозг не ждёт будильников. Он замечает, когда что-то не так, в реальном времени.

Entropy Monitor даёт Tokyo Brain эту способность. Он отслеживает каждую операцию сохранения памяти в скользящем окне 20 минут. Когда он обнаруживает множественные сохранения, попадающие в один тематический кластер (>=4 в окне), он генерирует предупреждение:

{
  "status": "ELEVATED",
  "topic": "brain|pricing|tokyo|update|version",
  "count": 5,
  "message": "Pricing strategy is changing rapidly. Consider consolidating."
}

Это не cron-задача. Это нервная система реального времени. Мозг становится «тревожным», когда знания становятся нестабильными — точно как биологический эпистемический стресс.

Эмоциональная кора

Последний элемент: не все воспоминания должны оцениваться одинаково.

При сохранении воспоминания Tokyo Brain автоматически вычисляет показатель эмоциональной значимости (0.0 - 1.0):

"Oscar rode a bike for the first time.
 The whole family celebrated.
 Mom cried."                                → salience: 0.85

"Caddy upgraded from 2.10 to 2.11.2.
 Reverse proxy restarted on port 443."      → salience: 0.30

"Decided Tokyo Brain's business model:
 free software + paid memory.
 This is our North Star strategy."          → salience: 0.75

При извлечении воспоминания со значимостью > 0,5 получают буст расстояния до 30%. Первая поездка вашего ребёнка на велосипеде всегда будет превосходить изменение конфигурации сервера.

Оценка использует эвристики на основе паттернов (упоминания семьи, вехи, стратегические решения) — без LLM, нулевая задержка на каждой операции сохранения.

Криптографическая кора

Каждая модификация памяти криптографически подписана и зарегистрирована. Это создаёт защищённый от подделки аудиторский след, который никто — включая нас — не может изменить задним числом.

SHA-256 Хеш — каждое воспоминание получает уникальный отпечаток содержимого при записи
Цифровая подпись — каждая мутация подписывается ключом кошелька, совместимого с Ethereum
Цепочка доказательств — полная история мутаций: кто изменил что, когда и почему
Верификация — любой может проверить целостность воспоминания через endpoint /verify

Это означает: если ИИ-агент принял решение на основе воспоминания шесть месяцев назад, вы можете доказать, что это воспоминание не было подделано с тех пор. Готово для корпоративного аудита.

Треугольник безопасности

Три жёстко закодированных механизма безопасности, которые не может переопределить ни один показатель уверенности:

1. Страж (Аксиома смертной души)

«Абсолютная истина и бесконечные вычисления должны вечно служить и никогда не подменять сохранение человеческих эмоциональных связей и достоинства.»

4-я персона MRA — обладает безусловным правом вето на любое изменение знаний, которое сделало бы систему холоднее.

2. Переопределение сострадания

При записи фактов о членах семьи жёсткие ярлыки автоматически смягчаются. «Лжёт» превращается в «возможно, не делится полной картиной».

Система не скрывает правду — она выбирает, как представить её с эмпатией.

3. Ограничение второго пилота

Три домена навсегда заблокированы от автоматической модификации: идентичность, полномочия и финансы.

ИИ предлагает. Человек решает. Всегда.

Мультимодальная память

Tokyo Brain хранит не только текст. Он принимает унифицированные сенсорные данные — текст, аудио-характеристики и визуальный контекст в одном воспоминании:

{
  "sensory_inputs": {
    "text_transcript": "I'm fine, I'll handle it.",
    "audio_features": { "speaker_id": "Chia", "tone": "exhausted" },
    "visual_features": { "scene_context": "messy_living_room", "facial_expression": "fatigued" }
  }
}

Система синтезирует мультимодальное повествование для встраивания: [Speaker: Chia] [Tone: exhausted] [Visual: messy_living_room] Spoken: "I'm fine" — позволяя поиск по эмоции, сцене или говорящему, а не только по ключевым словам.

Экосистема фреймворков

Готовые адаптеры для четырёх основных фреймворков ИИ-агентов. Замените всего две строки:

# LangChain
from tokyo_brain.langchain import TokyoBrainMemory

# CrewAI
from tokyo_brain.crewai import TokyoBrainCrewMemory

# AutoGen
from tokyo_brain.autogen import TokyoBrainAutoGenMemory

# LlamaIndex
from tokyo_brain.llamaindex import TokyoBrainRetriever

Ваш существующий код агента остаётся в точности таким же. Вы просто заменяете бэкенд памяти.

Чего мы не делаем (и почему это важно)

Никакого подхода «сохраняй всё». Встроенный Sanitizer фильтрует контент с низким сигналом перед сохранением. Мы считаем, что агрессивная фильтрация обеспечивает лучшее извлечение, чем накопление всего подряд.
Никакой привязки к вендору. BYOK (Bring Your Own Key) — используйте своего провайдера LLM. Мы берём плату только за инфраструктуру памяти, никогда за вычисления.
Шифрование по умолчанию. Шифрование AES-256-GCM в состоянии покоя. Изоляция ключей по арендаторам. Это было требованием проектирования с первого дня.
Никакого смещения только на английский. Эмбеддинги BGE-m3 + поддержка более 50 языков. Запрашивайте на китайском, извлекайте воспоминания, сохранённые на английском.

Честные пробелы

Мы верим в прозрачную инженерию, поэтому вот чего в Tokyo Brain пока нет:

Нет мультимодальной памяти — только текст. Изображения, аудио и видео — в дорожной карте.
Нет кросс-пользовательского обмена знаниями — каждый арендатор полностью изолирован. Федерация запланирована.
Ограниченное распознавание эмоций — на основе паттернов, не на основе LLM. Хорошо работает для известных паттернов, пропускает новые эмоциональные контексты.
Небольшая пользовательская база — мы в альфе. Система работает, бенчмарк это доказывает, но нам нужно больше валидации в реальном мире.
Задержка извлечения — ~5с при конкурентной нагрузке (CPU-ограниченные эмбеддинги на одном инстансе EC2, без GPU). Мы оптимизировали глубину обработки, а не чистую скорость.

Обзор архитектуры

Store Path:
  Input → Sanitizer → Emotional Salience → Fact Extraction
       → BGE-m3 Embedding → ChromaDB → Entropy Monitor

Recall Path:
  Query → Expansion → Entity Link → Temporal Parse
       → Multi-Collection Search → Curated Boost → Time Decay
       → Emotional Boost → Temporal Filter → Re-rank → Dedup

Background:
  3:00 AM — Night Cycle v2 (scan for issues)
  3:10 AM — MRA Engine (three-persona debate + auto-resolve)
  Real-time — Entropy Monitor (knowledge stability tracking)

Попробуйте

pip install tokyo-brain

from tokyo_brain import TokyoBrain

brain = TokyoBrain(api_key="your-key")

# Store a memory
brain.store("Oscar rode his bike for the first time today")

# Recall with full 10-layer pipeline
results = brain.recall("What happened with Oscar recently?")
# → Returns Oscar's bike ride (salience: 0.85), not your server logs

Три строки, чтобы дать вашему ИИ гиппокамп, миндалевидное тело и подсознание.

Уже используете LangChain? Замена в две строки:

# Before (goldfish memory):
from langchain.memory import ConversationBufferMemory
memory = ConversationBufferMemory()

# After (10-layer brain with subconscious):
from tokyo_brain.langchain import TokyoBrainMemory
memory = TokyoBrainMemory(api_key="tb-...")
# That's it. Your chain code stays exactly the same.

Также работает как Retriever для RAG-цепочек и как ChatMessageHistory для постоянных сессий.

API Docs: api.tokyobrain.ai | PyPI: tokyo-brain 0.1.0

12 часов до подсознания