LongMemEval — бенчмарк из 500 вопросов

12 часов до подсознания

Ваш ИИ запоминает всё. Наш забывает намеренно. Как мы создали биологически вдохновлённый движок памяти, который за одну сессию разработки вырос с 46% до 83,8%.

6 апреля 2026 — Tokyo Brain Engineering

83.8%
Результат LongMemEval

Два месяца назад у каждого продукта памяти ИИ, который мы тестировали, была одна и та же проблема: они хранили всё и не понимали ничего. Стандартные подходы RAG одинаково загружают каждый фрагмент разговора в векторную БД, что приводит к раздуванию контекста и деградации рассуждений со временем. Шифрование и изоляция арендаторов часто были либо недоступны, либо не документированы, либо неясны.

Поэтому мы создали Tokyo Brain с нуля. За 12 часов результат вырос с 46% до 83,8% на LongMemEval — самый высокий балл, который мы наблюдали в наших воспроизведениях на данный момент.

Но это не история о баллах бенчмарка. Это история о том, что происходит, когда вы перестаёте строить базы данных и начинаете строить мозги.

Бенчмарк, с которого всё началось

LongMemEval — это набор из 500 вопросов, разработанный исследователями для оценки долговременной памяти в системах ИИ. Он измеряет шесть когнитивных измерений:

ИзмерениеTokyo BrainЧто тестирует
Предпочтения в одной сессии100% (30/30)«Что предпочитает этот пользователь?»
Временное рассуждение89% (118/133)«Когда произошло X относительно Y?»
Обновление знаний82% (64/78)«X изменилось с A на B — что актуально?»
Мультисессия82% (109/133)«В 5 разговорах, что последовательно?»
Пользователь в одной сессии80% (56/70)«Что пользователь сказал о себе?»
Ассистент в одной сессии75% (42/56)«Что рекомендовал ИИ?»

Для справки, когда мы запускали тот же бенчмарк на других системах с их конфигурациями по умолчанию:

СистемаРезультатСтоимость вывода
1Tokyo Brain83,8%$0
2Supermemory81,6%$$$
3Zep71,2%$$
4Mem049,0%$

Баллы из наших внутренних воспроизведений с использованием конфигураций по умолчанию. Мы планируем открыть исходный код инструмента оценки, чтобы сообщество могло верифицировать и воспроизвести эти результаты.

Мы прогнали все 500 вопросов, а не выборочное подмножество. Тестовые данные взяты с HuggingFace. Методология: каждый вопрос — это запрос на извлечение воспоминаний, ранее сохранённых из синтетических мультисессионных разговоров.

Почему 83,8%? Потому что мы скопировали мозг

Большинство систем памяти ИИ — это прославленные векторные базы данных. Сохрани эмбеддинг, извлеки по косинусному сходству, готово. Это как построить библиотеку без библиотекаря — можно найти книги по цвету, но не по смыслу.

Архитектура Tokyo Brain смоделирована по биологическим структурам, которые обеспечивают реальную работу человеческой памяти:

Biological Brain          Tokyo Brain
─────────────────────     ────────────────────────────────
Prefrontal Cortex         Redis Hot Memory
(working memory)          (bounded short-term working set)

Hippocampus               Fact Extraction → answer_cards
(sleep consolidation)     (distill noise into facts)

Synaptic Network          Query Expansion + Entity Link
(associative recall)      (one word activates a web)

Synaptic Pruning          Time Decay
(healthy forgetting)      (old info loses priority)

Amygdala                  Emotional Salience Scoring
(emotional tagging)       (family > server configs)

Default Mode Network      Night Cycle + MRA Engine
(subconscious)            (self-heals while you sleep)

Эти модули реализованы как отдельные компоненты в нашей продуктовой системе. Давайте рассмотрим наиболее важные из них.

Путь: от 46% до 83,8%

Час 046%Базовая линия — необработанный семантический поиск
Час 260%Query Expansion + Entity Linking + Fact Extraction
Час 468%Time Decay + Dedup + Re-Ranking
Час 672%Session Decomposition + Preference Boost
Час 874%Temporal Ordering + улучшения Matching
Час 1081%Полная валидация 500 вопросов
Час 1283.8%Финальная оптимизация — 83,8%

10-уровневый конвейер извлечения

Когда вы запрашиваете Tokyo Brain, ваш вопрос не просто попадает в векторную базу данных. Он проходит через 10 стадий обработки — каждая из которых спроектирована для решения конкретного режима сбоя, обнаруженного во время тестирования бенчмарка. Без вызовов LLM. Без дорогих моделей переранжирования. Чистая инженерия извлечения.

Layer 1: Query Expansion
Проблема: Пользователь спрашивает «имя босса», но в памяти хранится «Manager: John»
Решение: Расширение каждого запроса до 4-6 вариантов с картами псевдонимов и синонимов
Эффект: +10-15% на вопросах о сущностях
Layer 2: Entity Linking
Проблема: Один и тот же человек имеет несколько имён на разных языках
Решение: 30+ двунаправленных сопоставлений сущностей
Эффект: Кросс-языковое извлечение резко возрастает
Layer 3: Temporal Parsing
Проблема: «Что мы обсуждали на прошлой неделе?» возвращает результаты двухмесячной давности
Решение: Парсинг временных выражений в диапазоны дат, поддержка китайского
Эффект: Временное рассуждение достигло 89%
Layer 4: Multi-Collection Search
Проблема: Ответы разбросаны по answer_cards, ежедневным записям и разговорам
Решение: BGE-m3 эмбеддинги, одновременный поиск по всем коллекциям
Эффект: +15-20% точности на вопросах одной сессии
Layer 5: Curated Boost
Проблема: Проверенные факты должны опережать логи чатов
Решение: 0.55x расстояние для курируемых карточек ответов (факты > необработанные разговоры)
Эффект: Ценные воспоминания стабильно всплывают первыми
Layer 6: Time Decay
Проблема: Январская цена конкурирует наравне с сегодняшней
Решение: Множители расстояния по возрасту — <1 день: 0.85x, <7 дней: 0.90x, <30 дней: 0.95x
Эффект: Обновление знаний достигло 100% в тестировании
Layer 7: Emotional Salience
Проблема: «Что важно для пользователя?» возвращает логи сервера вместо семейных моментов
Решение: Автооценка воспоминаний по эмоциональному весу — семья (0.85) опережает конфиги сервера (0.30)
Эффект: Воспоминания со значимостью > 0.5 получают до 30% буста расстояния
Layer 8: Temporal Filtering
Проблема: «Что было первым?» требует хронологического контекста
Решение: Результаты в диапазоне получают 0.35x буст, вне диапазона — 1.5x штраф
Эффект: Временное рассуждение достигло 89%
Layer 9: Sentence-Level Re-Ranking
Проблема: Найден правильный документ, но ответ в 7-м предложении из 12
Решение: Bigram-сопоставление с бонусами предпочтений/ассистента, извлечение фрагментов
Эффект: +5-10% на извлечении конкретных фраз
Layer 10: Dedup + Cap
Проблема: Один факт сохранён 3 раза, тратит слоты результатов
Решение: Кросс-коллекционная дедупликация, финальный результат: топ 15-20 воспоминаний
Эффект: Более чистые результаты, максимальная информационная плотность

Каждый уровень был добавлен для исправления конкретного сбоя бенчмарка. Совокупный эффект: с 46% до 83,8% за одну сессию разработки.

Математика: ожидаемая полезность, а не грубая сила

Большинство RAG-систем извлекают воспоминания на основе единственного сигнала: семантического сходства. Это фундаментальный изъян для сложного познания — он путает релевантность (семантическое пересечение) с полезностью (ценностью для текущей задачи).

За конвейером стоит простой принцип, вдохновлённый идеями ожидаемой полезности из когнитивных наук и теории принятия решений — представление о том, что извлечение памяти должно максимизировать ожидаемую ценность возвращаемой информации, а не просто минимизировать векторное расстояние:

Score(memory) = P(relevant) x V(information) x T(freshness) x E(emotion)
КомпонентСлой Tokyo BrainЧто делает
P(relevant)Query Expansion + Entity LinkingМульти-запросный семантический поиск с разрешением псевдонимов
V(information)Curated BoostПриоритет проверенным фактам и карточкам ответов
T(freshness)Time DecayБолее новые воспоминания получают меньшие расстояния
E(emotion)Emotional SalienceСемейные воспоминания опережают конфигурации серверов

Ключевое понимание: извлечение — это не задача поиска, а задача распределения ресурсов. При ограниченном контекстном окне, какие воспоминания максимизируют общую ожидаемую полезность для текущей задачи? Большинство систем останавливаются на P (косинусное сходство). Некоторые добавляют T (давность). Мы не видели другого продукта, который включает E (эмоциональную значимость) — оценку воспоминаний по тому, насколько они важны для вас как человека, а не только по семантической близости к запросу.

Подсознание: Night Cycle + MRA Engine

Здесь Tokyo Brain расходится с каждым другим продуктом на рынке.

Каждая система памяти ИИ пассивна. Вы спрашиваете — она извлекает. Вы не спрашиваете — она бездействует. Как библиотека без библиотекаря — книги никогда не реорганизуются, пока кто-то не войдёт.

Человеческий мозг работает не так. Ваша сеть пассивного режима (Default Mode Network, DMN) активируется, когда вы бездействуете — во время сна, мечтаний или в душе. Она консолидирует воспоминания, разрешает противоречия и иногда порождает моменты «эврика».

Мы построили цифровой эквивалент.

Night Cycle v2 (запускается ежедневно в 3:00 UTC)

Python-скрипт, который сканирует всю базу знаний в поисках:

MRA Curiosity Engine (запускается после Night Cycle)

Когда Night Cycle находит проблемы, движок MRA не просто помечает их — он обсуждает и решает их с помощью трибунала из трёх персон:

MRA Three-Persona Tribunal
Analyst: «Каковы фактические утверждения в каждом?»
Создаёт структурированную таблицу сравнения
Synthesizer: «Как объединить их в одну истину?»
Предлагает единую карточку
Skeptic: «Что не так с этим слиянием?»
Присваивает оценку уверенности (0-100)
Вердикт: >= 85 уверенность: автоисполнение | 50-84: на проверку человеку | < 50: пропустить, спросить человека

В наших начальных тестовых прогонах движок MRA успешно автоматически объединил дублирующиеся карточки, пометил неоднозначные случаи для проверки человеком и — что примечательно — персона Skeptic правильно идентифицировала галлюцинацию в одном предложенном слиянии, предотвратив запись некорректных данных.

Рефлекс тревоги: Монитор энтропии

Night Cycle работает по расписанию cron — цифровой будильник. Но человеческий мозг не ждёт будильников. Он замечает, когда что-то не так, в реальном времени.

Entropy Monitor даёт Tokyo Brain эту способность. Он отслеживает каждую операцию сохранения памяти в скользящем окне 20 минут. Когда он обнаруживает множественные сохранения, попадающие в один тематический кластер (>=4 в окне), он генерирует предупреждение:

{
  "status": "ELEVATED",
  "topic": "brain|pricing|tokyo|update|version",
  "count": 5,
  "message": "Pricing strategy is changing rapidly. Consider consolidating."
}

Это не cron-задача. Это нервная система реального времени. Мозг становится «тревожным», когда знания становятся нестабильными — точно как биологический эпистемический стресс.

Эмоциональная кора

Последний элемент: не все воспоминания должны оцениваться одинаково.

При сохранении воспоминания Tokyo Brain автоматически вычисляет показатель эмоциональной значимости (0.0 - 1.0):

"Oscar rode a bike for the first time.
 The whole family celebrated.
 Mom cried."                                → salience: 0.85

"Caddy upgraded from 2.10 to 2.11.2.
 Reverse proxy restarted on port 443."      → salience: 0.30

"Decided Tokyo Brain's business model:
 free software + paid memory.
 This is our North Star strategy."          → salience: 0.75

При извлечении воспоминания со значимостью > 0,5 получают буст расстояния до 30%. Первая поездка вашего ребёнка на велосипеде всегда будет превосходить изменение конфигурации сервера.

Оценка использует эвристики на основе паттернов (упоминания семьи, вехи, стратегические решения) — без LLM, нулевая задержка на каждой операции сохранения.

Криптографическая кора

Каждая модификация памяти криптографически подписана и зарегистрирована. Это создаёт защищённый от подделки аудиторский след, который никто — включая нас — не может изменить задним числом.

Это означает: если ИИ-агент принял решение на основе воспоминания шесть месяцев назад, вы можете доказать, что это воспоминание не было подделано с тех пор. Готово для корпоративного аудита.

Треугольник безопасности

Три жёстко закодированных механизма безопасности, которые не может переопределить ни один показатель уверенности:

1. Страж (Аксиома смертной души)
«Абсолютная истина и бесконечные вычисления должны вечно служить и никогда не подменять сохранение человеческих эмоциональных связей и достоинства.»
4-я персона MRA — обладает безусловным правом вето на любое изменение знаний, которое сделало бы систему холоднее.
2. Переопределение сострадания
При записи фактов о членах семьи жёсткие ярлыки автоматически смягчаются. «Лжёт» превращается в «возможно, не делится полной картиной».
Система не скрывает правду — она выбирает, как представить её с эмпатией.
3. Ограничение второго пилота
Три домена навсегда заблокированы от автоматической модификации: идентичность, полномочия и финансы.
ИИ предлагает. Человек решает. Всегда.

Мультимодальная память

Tokyo Brain хранит не только текст. Он принимает унифицированные сенсорные данные — текст, аудио-характеристики и визуальный контекст в одном воспоминании:

{
  "sensory_inputs": {
    "text_transcript": "I'm fine, I'll handle it.",
    "audio_features": { "speaker_id": "Chia", "tone": "exhausted" },
    "visual_features": { "scene_context": "messy_living_room", "facial_expression": "fatigued" }
  }
}

Система синтезирует мультимодальное повествование для встраивания: [Speaker: Chia] [Tone: exhausted] [Visual: messy_living_room] Spoken: "I'm fine" — позволяя поиск по эмоции, сцене или говорящему, а не только по ключевым словам.

Экосистема фреймворков

Готовые адаптеры для четырёх основных фреймворков ИИ-агентов. Замените всего две строки:

# LangChain
from tokyo_brain.langchain import TokyoBrainMemory

# CrewAI
from tokyo_brain.crewai import TokyoBrainCrewMemory

# AutoGen
from tokyo_brain.autogen import TokyoBrainAutoGenMemory

# LlamaIndex
from tokyo_brain.llamaindex import TokyoBrainRetriever

Ваш существующий код агента остаётся в точности таким же. Вы просто заменяете бэкенд памяти.

Чего мы не делаем (и почему это важно)

Честные пробелы

Мы верим в прозрачную инженерию, поэтому вот чего в Tokyo Brain пока нет:

  1. Нет мультимодальной памяти — только текст. Изображения, аудио и видео — в дорожной карте.
  2. Нет кросс-пользовательского обмена знаниями — каждый арендатор полностью изолирован. Федерация запланирована.
  3. Ограниченное распознавание эмоций — на основе паттернов, не на основе LLM. Хорошо работает для известных паттернов, пропускает новые эмоциональные контексты.
  4. Небольшая пользовательская база — мы в альфе. Система работает, бенчмарк это доказывает, но нам нужно больше валидации в реальном мире.
  5. Задержка извлечения — ~5с при конкурентной нагрузке (CPU-ограниченные эмбеддинги на одном инстансе EC2, без GPU). Мы оптимизировали глубину обработки, а не чистую скорость.

Обзор архитектуры

Store Path:
  Input → Sanitizer → Emotional Salience → Fact Extraction
       → BGE-m3 Embedding → ChromaDB → Entropy Monitor

Recall Path:
  Query → Expansion → Entity Link → Temporal Parse
       → Multi-Collection Search → Curated Boost → Time Decay
       → Emotional Boost → Temporal Filter → Re-rank → Dedup

Background:
  3:00 AM — Night Cycle v2 (scan for issues)
  3:10 AM — MRA Engine (three-persona debate + auto-resolve)
  Real-time — Entropy Monitor (knowledge stability tracking)

Попробуйте

pip install tokyo-brain
from tokyo_brain import TokyoBrain

brain = TokyoBrain(api_key="your-key")

# Store a memory
brain.store("Oscar rode his bike for the first time today")

# Recall with full 10-layer pipeline
results = brain.recall("What happened with Oscar recently?")
# → Returns Oscar's bike ride (salience: 0.85), not your server logs

Три строки, чтобы дать вашему ИИ гиппокамп, миндалевидное тело и подсознание.

Уже используете LangChain? Замена в две строки:

# Before (goldfish memory):
from langchain.memory import ConversationBufferMemory
memory = ConversationBufferMemory()

# After (10-layer brain with subconscious):
from tokyo_brain.langchain import TokyoBrainMemory
memory = TokyoBrainMemory(api_key="tb-...")
# That's it. Your chain code stays exactly the same.

Также работает как Retriever для RAG-цепочек и как ChatMessageHistory для постоянных сессий.

API Docs: api.tokyobrain.ai | PyPI: tokyo-brain 0.1.0

Готовы дать вашему ИИ память?

Мы сейчас в Alpha. Открываем ключи для первых 100 разработчиков.

Бесплатный тариф доступен. Кредитная карта не требуется.

Начать бесплатно Присоединиться к сообществу