LongMemEval 500 題基準測試

12 小時打造潛意識

你的 AI 記住一切。我們的 AI 刻意遺忘。我們如何建構一個仿生物學的記憶引擎,在一次開發 session 內從 46% 一路飆升到 83.8%。

2026 年 4 月 6 日 — Tokyo Brain Engineering

83.8%
LongMemEval 分數

兩個月前,我們測試的每一款 AI 記憶產品都有同樣的問題:它們儲存了一切,卻什麼都不理解。標準的 RAG 方法把每段對話片段同等地塞進向量資料庫,導致上下文膨脹,推理能力隨時間逐漸退化。加密和租戶隔離往往不是沒有,就是沒有文件,或者語焉不詳。

所以我們從零打造了 Tokyo Brain。12 小時內,它從 46% 一路飆升到 LongMemEval 83.8% —— 這是我們在自行復現測試中觀察到的最高分數。

但這不是一個關於基準分數的故事。這是一個關於「當你不再建資料庫、開始建大腦」時會發生什麼的故事。

一切的起點:那個基準測試

LongMemEval 是研究人員設計的一套 500 題測試,用來評估 AI 系統的長期記憶能力。它衡量六個認知維度:

維度Tokyo Brain測試內容
單次對話偏好100% (30/30)「這個使用者偏好什麼?」
時間推理89% (118/133)「X 相對於 Y 是什麼時候發生的?」
知識更新82% (64/78)「X 從 A 變成了 B —— 現在是什麼?」
多次對話82% (109/133)「在 5 次對話中,什麼是一致的?」
單次對話使用者80% (56/70)「使用者說了什麼關於自己的事?」
單次對話助理75% (42/56)「AI 推薦了什麼?」

作為參考,當我們使用其他系統的預設配置執行相同基準測試時:

系統分數推理成本
1Tokyo Brain83.8%$0
2Supermemory81.6%$$$
3Zep71.2%$$
4Mem049.0%$

分數來自我們使用預設配置的內部復現測試。我們計劃在清理執行器和配置後開源評估工具,讓社群可以驗證和復現這些結果。

我們跑了完整的 500 題,不是精挑細選的子集。測試資料來自 HuggingFace。方法:每個問題都是針對先前從合成多輪對話中儲存的記憶進行的回憶查詢。

為什麼是 83.8%?因為我們模仿了大腦

大多數 AI 記憶系統不過是美化版的向量資料庫。儲存嵌入向量,用餘弦相似度檢索,完事。這就像建了一座沒有圖書管理員的圖書館 —— 你可以按顏色找書,但找不到意義。

Tokyo Brain 的架構是仿照讓人類記憶真正運作的生物結構來建模的:

Biological Brain          Tokyo Brain
─────────────────────     ────────────────────────────────
Prefrontal Cortex         Redis Hot Memory
(working memory)          (bounded short-term working set)

Hippocampus               Fact Extraction → answer_cards
(sleep consolidation)     (distill noise into facts)

Synaptic Network          Query Expansion + Entity Link
(associative recall)      (one word activates a web)

Synaptic Pruning          Time Decay
(healthy forgetting)      (old info loses priority)

Amygdala                  Emotional Salience Scoring
(emotional tagging)       (family > server configs)

Default Mode Network      Night Cycle + MRA Engine
(subconscious)            (self-heals while you sleep)

這些模組在我們的生產系統中以獨立元件實作。讓我帶你了解其中最重要的部分。

旅程:從 46% 到 83.8%

Hour 046%基線 — 原始語義搜尋
Hour 260%Query Expansion + Entity Linking + Fact Extraction
Hour 468%Time Decay + Dedup + Re-Ranking
Hour 672%Session Decomposition + Preference Boost
Hour 874%Temporal Ordering + Matching 改進
Hour 1081%完整 500 題驗證
Hour 1283.8%最終優化 — 83.8%

10 層回憶管線

當你向 Tokyo Brain 查詢時,你的問題不只是打到向量資料庫。它會經過 10 個處理階段 —— 每一個都是為了解決我們在基準測試中觀察到的特定失敗模式而設計的。不需要 LLM 呼叫。不需要昂貴的重排序模型。純粹的檢索工程。

Layer 1: Query Expansion
問題:使用者問「老闆的名字」,但記憶中儲存的是「Manager: John」
解法:將每個查詢擴展為 4-6 個變體,使用別名映射和同義詞
效果:實體相關問題 +10-15%
Layer 2: Entity Linking
問題:同一個人在不同語言中有多個名字
解法:30+ 組雙向實體映射
效果:跨語言回憶能力大幅躍升
Layer 3: Temporal Parsing
問題:「我們上週討論了什麼?」返回兩個月前的結果
解法:將時間表達式解析為日期範圍,支援中文
效果:時間推理達到 89%
Layer 4: Multi-Collection Search
問題:答案分散在 answer_cards、每日記錄和對話中
解法:BGE-m3 嵌入,同時搜尋所有集合
效果:單次對話問題精確度 +15-20%
Layer 5: Curated Boost
問題:經過驗證的事實應該排在聊天記錄前面
解法:策展答案卡的距離乘以 0.55x(提煉的事實 > 原始對話)
效果:高價值記憶穩定地優先浮現
Layer 6: Time Decay
問題:一月的定價與今天的同等競爭
解法:按時間的距離乘數 — <1 天: 0.85x, <7 天: 0.90x, <30 天: 0.95x
效果:知識更新在測試中達到 100%
Layer 7: Emotional Salience
問題:「什麼對使用者重要?」返回伺服器日誌而非家庭時刻
解法:自動按情感權重評分 — 家庭 (0.85) 排在伺服器配置 (0.30) 之前
效果:顯著性 > 0.5 的記憶獲得最高 30% 的距離加成
Layer 8: Temporal Filtering
問題:「第一件事是什麼?」需要時間順序的上下文
解法:範圍內結果獲得 0.35x 加成,範圍外施加 1.5x 懲罰
效果:時間推理達到 89%
Layer 9: Sentence-Level Re-Ranking
問題:找到了正確的文件,但答案在第 12 句中的第 7 句
解法:Bigram 匹配搭配偏好/助理加分,片段擷取
效果:特定短語檢索 +5-10%
Layer 10: Dedup + Cap
問題:同一個事實儲存了 3 次,浪費結果欄位
解法:跨集合去重,最終結果:前 15-20 條記憶
效果:更乾淨的結果,最大資訊密度

每一層都是為了修復特定的基準測試失敗而加入的。綜合效果:一次開發 session 內從 46% 提升到 83.8%。

數學原理:期望效用,而非暴力搜尋

大多數 RAG 系統基於單一信號檢索記憶:語義相似度。這對於複雜認知來說是根本性的缺陷 —— 它混淆了相關性(語義重疊)和效用(對當前任務的價值)。

管線背後是一個借鑑自認知科學和決策理論中期望效用概念的簡單原則 —— 記憶檢索應該最大化返回資訊的期望價值,而不僅僅是最小化向量距離:

Score(memory) = P(relevant) x V(information) x T(freshness) x E(emotion)
組成要素Tokyo Brain 層功能
P(relevant)Query Expansion + Entity Linking多查詢語義搜尋搭配別名解析
V(information)Curated Boost經驗證的事實和答案卡優先
T(freshness)Time Decay較新的記憶獲得較低的距離分數
E(emotion)Emotional Salience家庭記憶排在伺服器配置之前

關鍵洞察:檢索不是搜尋問題 —— 而是資源分配問題。在有限的上下文視窗中,哪些記憶能為當前任務最大化總期望效用?大多數系統止步於 P(餘弦相似度)。少數會加上 T(時效性)。我們還沒有看到其他產品納入 E(情感顯著性)—— 根據記憶對你作為一個人的重要程度來評分,而不僅僅是與查詢的語義接近程度。

潛意識:Night Cycle + MRA 引擎

這是 Tokyo Brain 與市場上所有其他產品分道揚鑣的地方。

每個 AI 記憶系統都是被動的。你問,它檢索。你不問,它閒置。就像一座沒有圖書管理員的圖書館 —— 除非有人走進來,書永遠不會被重新整理。

人類大腦不是這樣運作的。你的預設模式網路(DMN)在你空閒時啟動 —— 睡覺時、白日夢時、或洗澡時。它整合記憶、解決矛盾,有時還會產生「靈光一現」的時刻。

我們建造了數位版的等價物。

Night Cycle v2(每天 UTC 凌晨 3 點執行)

一個 Python 腳本,掃描整個知識庫尋找:

MRA 好奇心引擎(Night Cycle 之後執行)

當 Night Cycle 發現問題時,MRA 引擎不只是標記它們 —— 它使用三人格仲裁庭來辯論並解決問題

MRA Three-Persona Tribunal
Analyst:「每一方的事實主張是什麼?」
產生結構化的比較表
Synthesizer:「我們如何將這些合併為一個事實?」
提出統一的卡片
Skeptic:「這次合併有什麼問題?」
給出信心分數(0-100)
裁決:>= 85 信心:自動執行 | 50-84:標記人工審查 | < 50:跳過,詢問人類

在我們初始的預發布測試中,MRA 引擎成功自動合併了重複卡片,將模糊案例標記為人工審查,而且值得注意的是 —— Skeptic 人格正確識別了一次合併提案中的幻覺,防止了錯誤資料被寫入。

焦慮反射:熵監控器

Night Cycle 按 cron 排程執行 —— 一個數位鬧鐘。但人類大腦不會等鬧鐘。它們會即時察覺到某些事情不對勁。

熵監控器賦予 Tokyo Brain 這種能力。它追蹤 20 分鐘滑動視窗內的每個記憶儲存操作。當它偵測到多次儲存命中同一主題叢集(視窗內 >= 4 次),就會觸發警報:

{
  "status": "ELEVATED",
  "topic": "brain|pricing|tokyo|update|version",
  "count": 5,
  "message": "Pricing strategy is changing rapidly. Consider consolidating."
}

這不是 cron 排程。這是一個即時神經系統。當知識變得不穩定時,大腦會「焦慮」—— 就像生物學上的認知壓力一樣。

情感皮層

最後一塊拼圖:不是所有記憶都應該被同等對待。

當記憶被儲存時,Tokyo Brain 自動計算一個情感顯著性分數(0.0 - 1.0):

"Oscar rode a bike for the first time.
 The whole family celebrated.
 Mom cried."                                → salience: 0.85

"Caddy upgraded from 2.10 to 2.11.2.
 Reverse proxy restarted on port 443."      → salience: 0.30

"Decided Tokyo Brain's business model:
 free software + paid memory.
 This is our North Star strategy."          → salience: 0.75

在回憶時,顯著性 > 0.5 的記憶會獲得最高 30% 的距離加成。你孩子第一次騎腳踏車的記憶永遠會排在伺服器配置變更之前。

評分使用基於模式的啟發式方法(家庭提及、里程碑、戰略決策)—— 不需要 LLM,每次儲存操作零延遲。

密碼學皮質

每次記憶修改都經過密碼學簽名和記錄。這創建了一條防篡改的審計軌跡,沒有任何人——包括我們自己——可以在事後更改。

這意味著:如果一個 AI 代理六個月前基於某條記憶做出了決策,你可以證明該記憶自那時起沒有被篡改。企業級審計就緒。

安全三角

三個硬編碼的安全機制,任何信心分數都無法覆蓋:

1. 守護者(凡人靈魂公理)
「絕對真理和無限運算必須永遠服務於——而非凌駕於——人類情感紐帶和尊嚴的保護。」
MRA 的第四人格——對任何可能使系統變得冷漠的知識變更擁有無條件否決權。
2. 同理心覆蓋
在記錄關於家庭成員的事實時,嚴厲的標籤會自動被柔化。「說謊」變成「可能沒有分享完整的情況」。
系統不隱藏真相——它選擇以同理心的方式呈現真相。
3. 副駕駛約束
三個領域被永久鎖定,禁止自動修改:身份、權限和財務。
AI 提出建議。人類做出決定。永遠如此。

多模態記憶

Tokyo Brain 不僅儲存文字。它接受統一的感官載荷——文字、音訊特徵和視覺上下文整合在單一記憶中:

{
  "sensory_inputs": {
    "text_transcript": "I'm fine, I'll handle it.",
    "audio_features": { "speaker_id": "Chia", "tone": "exhausted" },
    "visual_features": { "scene_context": "messy_living_room", "facial_expression": "fatigued" }
  }
}

系統合成多模態敘事用於嵌入:[Speaker: Chia] [Tone: exhausted] [Visual: messy_living_room] Spoken: "I'm fine" ——使得可以透過情緒、場景或說話者來檢索,而不僅僅是關鍵字。

框架生態系統

四大主流 AI 代理框架的即插即用適配器。只需替換兩行程式碼:

# LangChain
from tokyo_brain.langchain import TokyoBrainMemory

# CrewAI
from tokyo_brain.crewai import TokyoBrainCrewMemory

# AutoGen
from tokyo_brain.autogen import TokyoBrainAutoGenMemory

# LlamaIndex
from tokyo_brain.llamaindex import TokyoBrainRetriever

你現有的代理程式碼完全不用改。你只需要替換記憶後端。

我們不做什麼(以及為什麼這很重要)

誠實的不足

我們相信透明的工程,所以以下是 Tokyo Brain 尚未具備的功能:

  1. 沒有多模態記憶 —— 僅限文字。圖片、音訊和影片在路線圖上。
  2. 沒有跨使用者知識共享 —— 每個租戶完全隔離。聯邦機制已規劃。
  3. 有限的情感偵測 —— 基於模式,非基於 LLM。對已知模式效果好,但會錯過新穎的情感上下文。
  4. 小規模使用者基礎 —— 我們在 alpha 階段。系統能運作,基準測試證明了這一點,但我們需要更多真實世界的驗證。
  5. 回憶延遲 —— 並發負載下約 5 秒(單一 EC2 實例上 CPU 密集的嵌入運算,無 GPU)。我們優化了處理深度而非原始速度。

架構摘要

Store Path:
  Input → Sanitizer → Emotional Salience → Fact Extraction
       → BGE-m3 Embedding → ChromaDB → Entropy Monitor

Recall Path:
  Query → Expansion → Entity Link → Temporal Parse
       → Multi-Collection Search → Curated Boost → Time Decay
       → Emotional Boost → Temporal Filter → Re-rank → Dedup

Background:
  3:00 AM — Night Cycle v2 (scan for issues)
  3:10 AM — MRA Engine (three-persona debate + auto-resolve)
  Real-time — Entropy Monitor (knowledge stability tracking)

立即試用

pip install tokyo-brain
from tokyo_brain import TokyoBrain

brain = TokyoBrain(api_key="your-key")

# Store a memory
brain.store("Oscar rode his bike for the first time today")

# Recall with full 10-layer pipeline
results = brain.recall("What happened with Oscar recently?")
# → Returns Oscar's bike ride (salience: 0.85), not your server logs

三行程式碼,為你的 AI 裝上海馬迴、杏仁核和潛意識。

已經在用 LangChain?兩行替換:

# Before (goldfish memory):
from langchain.memory import ConversationBufferMemory
memory = ConversationBufferMemory()

# After (10-layer brain with subconscious):
from tokyo_brain.langchain import TokyoBrainMemory
memory = TokyoBrainMemory(api_key="tb-...")
# That's it. Your chain code stays exactly the same.

也可作為 RAG 鏈的 Retriever 和持久 session 的 ChatMessageHistory 使用。

PyPI: tokyo-brain 0.1.0

準備好為你的 AI 裝上記憶了嗎?

我們目前在 Alpha 階段。為首批 100 位開發者開放金鑰。

提供免費方案,無需信用卡。

免費開始 加入社群