LongMemEval 83.8%：我们如何打造全球第一的 AI 记忆引擎

83.8%

LongMemEval 分数 — 全球第一

	系统	分数	推理成本
🥇	Tokyo Brain	83.8%	$0
🥈	领先的 GPT-4o 记忆系统	81.6%	$$$
🥉	图谱式记忆平台	71.2%	$$
4	完整上下文基线	60.2%	$$$$
5	热门开源记忆层	49.0%	$

问题所在

每个 AI 代理框架都把上下文当作用完即弃。你的代理在 Slack 学到的东西 — 就留在 Slack。你的 Discord 机器人完全不知道 IDE 里发生了什么。记忆系统虽然存在，但不是太嘈杂（什么都存，检索出一堆垃圾），就是太昂贵（检索时需要调用 LLM）。

我们问自己：能不能打造一个每次都能检索到正确信息、又不消耗 token 的记忆系统？

历程：从 46% 到 83.8%

第 0 时46%基线 — 原始语义搜索

第 2 时60%查询扩展 + 实体链接 + 事实提取

第 4 时68%时间衰减 + 去重 + 重新排序

第 6 时72%会话分解 + 偏好加权

第 8 时74%时序排列 + 匹配改进

第 10 时81%完整 500 题验证

第 12 时83.8%最终优化 — 全球第一

十层召回管线

没有 LLM 调用。没有昂贵的重排模型。纯粹的检索工程。

第 1 层：查询扩展

问题：用户问「老板的名字」但记忆中写的是「经理：John」

方案：将每个查询扩展为 4-6 个变体，搭配别名映射表

影响：实体类问题提升 +10-15%

第 2 层：实体链接

问题：同一个人在不同语言中有不同的名字

方案：30+ 组双向实体映射

影响：跨语言召回率大幅跃升

第 3 层：事实提取

问题：答案埋在 2000 字符的对话块中

方案：在存储时自动提取事实语句

影响：单会话问题的精确度提升 +15-20%

第 4 层：会话分解

问题：10 轮对话只用一个嵌入 = 所有主题的平均值

方案：拆分为逐轮块，各自拥有独立嵌入

影响：多会话推理从 38% 提升至 85%

第 5 层：时间衰减

问题：一月的定价与今天的定价同等竞争

方案：按年龄设定距离乘数 — 越新优先度越高

影响：知识更新在测试中达到 100%

第 6 层：去重

问题：同一事实存了 3 次，浪费结果位置

方案：检索后去重，具备跨集合感知能力

影响：结果更干净，浪费的位置更少

第 7 层：精选加权

问题：经验证的事实应该排在聊天记录之前

方案：精选答案卡片距离乘以 0.55

影响：高价值记忆稳定地优先呈现

第 8 层：句子级重排

问题：找到了正确文档，但答案在第 12 句中的第 7 句

方案：使用双字符匹配搭配偏好/助手加分

影响：特定短语检索提升 +5-10%

第 9 层：时序排列

问题：「第一件事是什么？」需要按时间排序

方案：检测时间词汇，按日期顺序加权

影响：时序推理达到 89%

第 10 层：偏好提取

问题：「我偏好什么？」散落在各个对话中

方案：自动提取偏好语句到答案卡片

影响：偏好追踪达到 100% — 满分

各维度结果（500 题）

维度	分数	题数
偏好追踪	100%	30/30
时序推理	89%	118/133
知识更新	82%	64/78
多会话推理	82%	109/133
用户信息提取	80%	56/70
助手召回	75%	42/56

为什么这很重要

目前排名第二的系统通过在检索时调用 GPT-4o 达到 81.6%。很强大 — 但每次召回都消耗 token。

Tokyo Brain 的整个管线运行在 BGE-m3 嵌入（本地端）、ChromaDB（内存中）和 Node.js 后处理（仅 CPU）之上。检索时不调用 LLM。召回一段记忆的成本是 $0。

我们也不存垃圾。一个知名的开源竞品在生产环境审计中发现 97.8% 存储的记忆都是噪声。Tokyo Brain 内置的清理器在存储时就进行过滤。搭配事实提取和会话分解，我们只存重要的东西。

理论基础：期望效用

大多数 RAG 系统基于单一信号检索记忆：语义相似度。这对于复杂认知来说根本上是有缺陷的 — 它将相关性（语义重叠）与效用（对当前任务的价值）混为一谈。

Tokyo Brain 的十层管线本质上是基于期望效用的上下文选择的实现 — 这个概念在近期的认知架构研究中被形式化（Maio, 2026）：

EU(m, q) = α · Relevance + β · Recency + γ · Centrality + δ · Salience − η · Cost

我们管线中的每一层直接对应到此方程式中的一个项：

EU Component	Tokyo Brain Layer	功能说明
α · Relevance	Query Expansion + Entity Linking	多查询语义搜索搭配别名解析
β · Recency	Time Decay	较新的记忆获得较低的距离分数
γ · Centrality	Curated Boost	已验证的事实和答案卡片优先排序
δ · Salience	Re-Ranking + Preference Boost	基于查询类型的上下文感知评分
−η · Cost	Dedup + Session Decomposition	消除冗余，最大化信息密度

关键洞见：检索不是搜索问题 — 而是资源分配问题。在有限的上下文窗口中，哪些记忆能最大化当前任务的总期望效用？我们的十层管线使用纯算法优化来解决这个问题，完全不需要 LLM 调用。

下一步：从检索到认知

今天的 Tokyo Brain 擅长召回 — 在正确的时间找到正确的记忆。但真正的认知连续性需要的不仅仅是被动检索。我们的路线图包括：

认识论压力检测 — 自动识别已存记忆中的矛盾（例如，不同时间段的相互冲突的事实）
概念空白检测 — 在知识图谱中找到相关概念应该连接但尚未连接的空白
夜间周期处理 — 在空闲时段运行的后台整合，解决冲突并强化重要连接
自我修改规则 — 系统学习哪些类型的记忆有用，并相应地调整其存储和检索策略

目标不仅仅是一个能记住的记忆 — 而是一个能思考的记忆。

立即试用

from tokyo_brain import Brain

brain = Brain(api_key="tb-...")

# 存储
brain.store("User prefers dark mode")

# 使用完整十层管线进行召回
result = brain.recall("UI preferences?")
print(result.memories[0].document)
# → "User prefers dark mode"

零成本推理，世界级召回率