| 系统 | 分数 | 推理成本 | |
|---|---|---|---|
| 🥇 | Tokyo Brain | 83.8% | $0 |
| 🥈 | 领先的 GPT-4o 记忆系统 | 81.6% | $$$ |
| 🥉 | 图谱式记忆平台 | 71.2% | $$ |
| 4 | 完整上下文基线 | 60.2% | $$$$ |
| 5 | 热门开源记忆层 | 49.0% | $ |
问题所在
每个 AI 代理框架都把上下文当作用完即弃。你的代理在 Slack 学到的东西 — 就留在 Slack。你的 Discord 机器人完全不知道 IDE 里发生了什么。记忆系统虽然存在,但不是太嘈杂(什么都存,检索出一堆垃圾),就是太昂贵(检索时需要调用 LLM)。
我们问自己:能不能打造一个每次都能检索到正确信息、又不消耗 token 的记忆系统?
历程:从 46% 到 83.8%
十层召回管线
没有 LLM 调用。没有昂贵的重排模型。纯粹的检索工程。
各维度结果(500 题)
| 维度 | 分数 | 题数 |
|---|---|---|
| 偏好追踪 | 100% | 30/30 |
| 时序推理 | 89% | 118/133 |
| 知识更新 | 82% | 64/78 |
| 多会话推理 | 82% | 109/133 |
| 用户信息提取 | 80% | 56/70 |
| 助手召回 | 75% | 42/56 |
为什么这很重要
目前排名第二的系统通过在检索时调用 GPT-4o 达到 81.6%。很强大 — 但每次召回都消耗 token。
Tokyo Brain 的整个管线运行在 BGE-m3 嵌入(本地端)、ChromaDB(内存中)和 Node.js 后处理(仅 CPU)之上。检索时不调用 LLM。召回一段记忆的成本是 $0。
我们也不存垃圾。一个知名的开源竞品在生产环境审计中发现 97.8% 存储的记忆都是噪声。Tokyo Brain 内置的清理器在存储时就进行过滤。搭配事实提取和会话分解,我们只存重要的东西。
理论基础:期望效用
大多数 RAG 系统基于单一信号检索记忆:语义相似度。这对于复杂认知来说根本上是有缺陷的 — 它将相关性(语义重叠)与效用(对当前任务的价值)混为一谈。
Tokyo Brain 的十层管线本质上是基于期望效用的上下文选择的实现 — 这个概念在近期的认知架构研究中被形式化(Maio, 2026):
我们管线中的每一层直接对应到此方程式中的一个项:
| EU Component | Tokyo Brain Layer | 功能说明 |
|---|---|---|
| α · Relevance | Query Expansion + Entity Linking | 多查询语义搜索搭配别名解析 |
| β · Recency | Time Decay | 较新的记忆获得较低的距离分数 |
| γ · Centrality | Curated Boost | 已验证的事实和答案卡片优先排序 |
| δ · Salience | Re-Ranking + Preference Boost | 基于查询类型的上下文感知评分 |
| −η · Cost | Dedup + Session Decomposition | 消除冗余,最大化信息密度 |
关键洞见:检索不是搜索问题 — 而是资源分配问题。在有限的上下文窗口中,哪些记忆能最大化当前任务的总期望效用?我们的十层管线使用纯算法优化来解决这个问题,完全不需要 LLM 调用。
下一步:从检索到认知
今天的 Tokyo Brain 擅长召回 — 在正确的时间找到正确的记忆。但真正的认知连续性需要的不仅仅是被动检索。我们的路线图包括:
- 认识论压力检测 — 自动识别已存记忆中的矛盾(例如,不同时间段的相互冲突的事实)
- 概念空白检测 — 在知识图谱中找到相关概念应该连接但尚未连接的空白
- 夜间周期处理 — 在空闲时段运行的后台整合,解决冲突并强化重要连接
- 自我修改规则 — 系统学习哪些类型的记忆有用,并相应地调整其存储和检索策略
目标不仅仅是一个能记住的记忆 — 而是一个能思考的记忆。
立即试用
from tokyo_brain import Brain
brain = Brain(api_key="tb-...")
# 存储
brain.store("User prefers dark mode")
# 使用完整十层管线进行召回
result = brain.recall("UI preferences?")
print(result.memories[0].document)
# → "User prefers dark mode"