LongMemEval 500 题基准测试

零成本推理,世界级召回率

我们如何在 12 小时内将 AI 记忆准确率从 46% 提升至 83.8% — 以 $0 推理成本超越所有商业记忆系统。

2026 年 4 月 6 日 — Tokyo Brain 工程团队

83.8%
LongMemEval 分数 — 全球第一
系统分数推理成本
🥇Tokyo Brain83.8%$0
🥈领先的 GPT-4o 记忆系统81.6%$$$
🥉图谱式记忆平台71.2%$$
4完整上下文基线60.2%$$$$
5热门开源记忆层49.0%$

问题所在

每个 AI 代理框架都把上下文当作用完即弃。你的代理在 Slack 学到的东西 — 就留在 Slack。你的 Discord 机器人完全不知道 IDE 里发生了什么。记忆系统虽然存在,但不是太嘈杂(什么都存,检索出一堆垃圾),就是太昂贵(检索时需要调用 LLM)。

我们问自己:能不能打造一个每次都能检索到正确信息、又不消耗 token 的记忆系统?

历程:从 46% 到 83.8%

第 0 时46%基线 — 原始语义搜索
第 2 时60%查询扩展 + 实体链接 + 事实提取
第 4 时68%时间衰减 + 去重 + 重新排序
第 6 时72%会话分解 + 偏好加权
第 8 时74%时序排列 + 匹配改进
第 10 时81%完整 500 题验证
第 12 时83.8%最终优化 — 全球第一

十层召回管线

没有 LLM 调用。没有昂贵的重排模型。纯粹的检索工程。

第 1 层:查询扩展
问题:用户问「老板的名字」但记忆中写的是「经理:John」
方案:将每个查询扩展为 4-6 个变体,搭配别名映射表
影响:实体类问题提升 +10-15%
第 2 层:实体链接
问题:同一个人在不同语言中有不同的名字
方案:30+ 组双向实体映射
影响:跨语言召回率大幅跃升
第 3 层:事实提取
问题:答案埋在 2000 字符的对话块中
方案:在存储时自动提取事实语句
影响:单会话问题的精确度提升 +15-20%
第 4 层:会话分解
问题:10 轮对话只用一个嵌入 = 所有主题的平均值
方案:拆分为逐轮块,各自拥有独立嵌入
影响:多会话推理从 38% 提升至 85%
第 5 层:时间衰减
问题:一月的定价与今天的定价同等竞争
方案:按年龄设定距离乘数 — 越新优先度越高
影响:知识更新在测试中达到 100%
第 6 层:去重
问题:同一事实存了 3 次,浪费结果位置
方案:检索后去重,具备跨集合感知能力
影响:结果更干净,浪费的位置更少
第 7 层:精选加权
问题:经验证的事实应该排在聊天记录之前
方案:精选答案卡片距离乘以 0.55
影响:高价值记忆稳定地优先呈现
第 8 层:句子级重排
问题:找到了正确文档,但答案在第 12 句中的第 7 句
方案:使用双字符匹配搭配偏好/助手加分
影响:特定短语检索提升 +5-10%
第 9 层:时序排列
问题:「第一件事是什么?」需要按时间排序
方案:检测时间词汇,按日期顺序加权
影响:时序推理达到 89%
第 10 层:偏好提取
问题:「我偏好什么?」散落在各个对话中
方案:自动提取偏好语句到答案卡片
影响:偏好追踪达到 100% — 满分

各维度结果(500 题)

维度分数题数
偏好追踪100%30/30
时序推理89%118/133
知识更新82%64/78
多会话推理82%109/133
用户信息提取80%56/70
助手召回75%42/56

为什么这很重要

目前排名第二的系统通过在检索时调用 GPT-4o 达到 81.6%。很强大 — 但每次召回都消耗 token。

Tokyo Brain 的整个管线运行在 BGE-m3 嵌入(本地端)、ChromaDB(内存中)和 Node.js 后处理(仅 CPU)之上。检索时不调用 LLM。召回一段记忆的成本是 $0。

我们也不存垃圾。一个知名的开源竞品在生产环境审计中发现 97.8% 存储的记忆都是噪声。Tokyo Brain 内置的清理器在存储时就进行过滤。搭配事实提取和会话分解,我们只存重要的东西。

理论基础:期望效用

大多数 RAG 系统基于单一信号检索记忆:语义相似度。这对于复杂认知来说根本上是有缺陷的 — 它将相关性(语义重叠)与效用(对当前任务的价值)混为一谈。

Tokyo Brain 的十层管线本质上是基于期望效用的上下文选择的实现 — 这个概念在近期的认知架构研究中被形式化(Maio, 2026):

EU(m, q) = α · Relevance + β · Recency + γ · Centrality + δ · Salience − η · Cost

我们管线中的每一层直接对应到此方程式中的一个项:

EU ComponentTokyo Brain Layer功能说明
α · RelevanceQuery Expansion + Entity Linking多查询语义搜索搭配别名解析
β · RecencyTime Decay较新的记忆获得较低的距离分数
γ · CentralityCurated Boost已验证的事实和答案卡片优先排序
δ · SalienceRe-Ranking + Preference Boost基于查询类型的上下文感知评分
−η · CostDedup + Session Decomposition消除冗余,最大化信息密度

关键洞见:检索不是搜索问题 — 而是资源分配问题。在有限的上下文窗口中,哪些记忆能最大化当前任务的总期望效用?我们的十层管线使用纯算法优化来解决这个问题,完全不需要 LLM 调用。

下一步:从检索到认知

今天的 Tokyo Brain 擅长召回 — 在正确的时间找到正确的记忆。但真正的认知连续性需要的不仅仅是被动检索。我们的路线图包括:

目标不仅仅是一个能记住的记忆 — 而是一个能思考的记忆。

立即试用

from tokyo_brain import Brain

brain = Brain(api_key="tb-...")

# 存储
brain.store("User prefers dark mode")

# 使用完整十层管线进行召回
result = brain.recall("UI preferences?")
print(result.memories[0].document)
# → "User prefers dark mode"

准备好为你的 AI 赋予记忆了吗?

提供免费方案。不需信用卡。

免费开始 加入社区