LongMemEval 500問ベンチマーク

12時間で潜在意識を構築

あなたのAIはすべてを記憶する。私たちのAIは意図的に忘れる。生物学にインスパイアされた記憶エンジンを構築し、1回の開発セッションで46%から83.8%まで到達した方法。

2026年4月6日 — Tokyo Brain Engineering

83.8%
LongMemEval スコア

2ヶ月前、私たちがテストしたすべてのAI記憶製品には同じ問題がありました:すべてを保存するが、何も理解しない。標準的なRAGアプローチは、すべての会話の断片を等しくベクトルDBに詰め込み、コンテキストの肥大化と時間の経過に伴う推論能力の低下を引き起こします。暗号化とテナント分離は、利用不可、ドキュメント未整備、または不明確であることがほとんどでした。

そこで私たちは Tokyo Brain をゼロから構築しました。12時間で、46%から LongMemEval で83.8% まで到達しました — これは私たちの再現テストで観測した最高スコアです。

しかし、これはベンチマークスコアの物語ではありません。データベースを作るのをやめて、脳を作り始めたとき何が起こるかという物語です。

すべてが始まったベンチマーク

LongMemEval は、AIシステムの長期記憶を評価するために研究者が設計した500問のテストスイートです。6つの認知次元を測定します:

次元Tokyo Brainテスト内容
単一セッションの好み100% (30/30)「このユーザーは何を好むか?」
時間推論89% (118/133)「XはYに対していつ起きたか?」
知識の更新82% (64/78)「XがAからBに変わった — 現在は?」
マルチセッション82% (109/133)「5つの会話を通じて一貫しているものは?」
単一セッション・ユーザー80% (56/70)「ユーザーは自分について何と言ったか?」
単一セッション・アシスタント75% (42/56)「AIは何を推奨したか?」

参考として、他のシステムのデフォルト設定で同じベンチマークを実行した結果:

システムスコア推論コスト
1Tokyo Brain83.8%$0
2Supermemory81.6%$$$
3Zep71.2%$$
4Mem049.0%$

スコアはデフォルト設定を使用した内部再現テストからのものです。ランナーと設定のクリーンアップ後に評価ハーネスをオープンソース化する予定であり、コミュニティがこれらの結果を検証・再現できるようにします。

完全な500問を実行しました。厳選されたサブセットではありません。テストデータは HuggingFace からのものです。手法:各質問は、合成マルチセッション会話から事前に保存された記憶に対する想起クエリです。

なぜ83.8%か?脳を模倣したから

ほとんどのAI記憶システムは、美化されたベクトルデータベースにすぎません。エンベディングを保存し、コサイン類似度で検索して終わり。それは司書のいない図書館を建てるようなもの — 色で本は見つけられますが、意味では見つけられません。

Tokyo Brain のアーキテクチャは、人間の記憶を実際に機能させる生物学的構造をモデルにしています:

Biological Brain          Tokyo Brain
─────────────────────     ────────────────────────────────
Prefrontal Cortex         Redis Hot Memory
(working memory)          (bounded short-term working set)

Hippocampus               Fact Extraction → answer_cards
(sleep consolidation)     (distill noise into facts)

Synaptic Network          Query Expansion + Entity Link
(associative recall)      (one word activates a web)

Synaptic Pruning          Time Decay
(healthy forgetting)      (old info loses priority)

Amygdala                  Emotional Salience Scoring
(emotional tagging)       (family > server configs)

Default Mode Network      Night Cycle + MRA Engine
(subconscious)            (self-heals while you sleep)

これらのモジュールは、本番システムで個別のコンポーネントとして実装されています。最も重要なものを順に説明します。

旅程:46%から83.8%へ

Hour 046%ベースライン — 生のセマンティック検索
Hour 260%Query Expansion + Entity Linking + Fact Extraction
Hour 468%Time Decay + Dedup + Re-Ranking
Hour 672%Session Decomposition + Preference Boost
Hour 874%Temporal Ordering + Matching 改善
Hour 1081%完全500問検証
Hour 1283.8%最終最適化 — 83.8%

10層リコールパイプライン

Tokyo Brain にクエリを送ると、質問は単にベクトルデータベースにヒットするだけではありません。10の処理段階を通過します — それぞれがベンチマークテスト中に観察した特定の障害モードを解決するために設計されています。LLM呼び出し不要。高価なリランキングモデル不要。純粋な検索エンジニアリング。

Layer 1: Query Expansion
問題:ユーザーが「上司の名前」と聞くが、記憶には「Manager: John」と保存
解決策:各クエリをエイリアスマップと同義語で4-6変体に展開
効果:エンティティ関連の質問で+10-15%
Layer 2: Entity Linking
問題:同じ人物が言語間で複数の名前を持つ
解決策:30以上の双方向エンティティマッピング
効果:言語間リコール能力が大幅に向上
Layer 3: Temporal Parsing
問題:「先週何を議論しましたか?」が2ヶ月前の結果を返す
解決策:時間表現を日付範囲に解析、中国語対応
効果:時間推論が89%に到達
Layer 4: Multi-Collection Search
問題:答えがanswer_cards、日次記録、会話に分散
解決策:BGE-m3エンベディング、すべてのコレクションを同時検索
効果:単一セッション質問の精度+15-20%
Layer 5: Curated Boost
問題:検証済みの事実はチャットログより上位にあるべき
解決策:策定されたアンサーカードの距離を0.55倍に(蒸留された事実 > 生の会話)
効果:高価値の記憶が安定して最初に表示
Layer 6: Time Decay
問題:1月の価格が今日の価格と同等に競合
解決策:時間ベースの距離乗数 — <1日: 0.85x, <7日: 0.90x, <30日: 0.95x
効果:知識更新テストで100%達成
Layer 7: Emotional Salience
問題:「ユーザーにとって何が重要か?」がサーバーログを返す
解決策:感情的重みで自動スコアリング — 家族(0.85)がサーバー設定(0.30)を上回る
効果:顕著性 > 0.5の記憶が最大30%の距離ブースト
Layer 8: Temporal Filtering
問題:「最初のことは何でしたか?」には時系列コンテキストが必要
解決策:範囲内の結果に0.35xブースト、範囲外に1.5xペナルティ
効果:時間推論が89%に到達
Layer 9: Sentence-Level Re-Ranking
問題:正しいドキュメントは見つかったが、答えは12文中の7文目
解決策:Bigramマッチングと好み/アシスタントボーナス、スニペット抽出
効果:特定フレーズ検索で+5-10%
Layer 10: Dedup + Cap
問題:同じ事実が3回保存され、結果スロットを浪費
解決策:コレクション間の重複排除、最終結果:上位15-20の記憶
効果:よりクリーンな結果、最大情報密度

各レイヤーは、特定のベンチマーク失敗を修正するために追加されました。複合効果:1回の開発セッションで46%から83.8%へ。

数学:ブルートフォースではなく期待効用

ほとんどのRAGシステムは単一の信号に基づいて記憶を検索します:セマンティック類似度。これは複雑な認知にとって根本的な欠陥です — 関連性(セマンティックな重なり)と効用(現在のタスクに対する価値)を混同しています。

パイプラインの背後にあるのは、認知科学と決策理論における期待効用の概念にインスパイアされたシンプルな原則 — 記憶の検索はベクトル距離を最小化するだけでなく、返される情報の期待値を最大化すべきという考え方です:

Score(memory) = P(relevant) x V(information) x T(freshness) x E(emotion)
構成要素Tokyo Brain レイヤー機能
P(relevant)Query Expansion + Entity Linkingエイリアス解決付きマルチクエリセマンティック検索
V(information)Curated Boost検証済みの事実とアンサーカードを優先
T(freshness)Time Decay新しい記憶はより低い距離スコアを獲得
E(emotion)Emotional Salience家族の記憶がサーバー設定より上位

重要な洞察:検索は検索問題ではなく、リソース配分問題です。限られたコンテキストウィンドウの中で、どの記憶が現在のタスクの総期待効用を最大化するか?ほとんどのシステムはP(コサイン類似度)で止まります。少数がT(新しさ)を追加します。E(感情的顕著性)を組み込んでいる製品は他に見たことがありません — クエリとの意味的な近さだけでなく、人間としてのあなたにとってどれだけ重要かで記憶をスコアリングすることです。

潜在意識:Night Cycle + MRA エンジン

ここが Tokyo Brain が市場の他のすべての製品と一線を画すところです。

すべてのAI記憶システムは受動的です。あなたが尋ねれば検索する。尋ねなければ何もしない。司書のいない図書館のように — 誰かが入ってこない限り、本は決して整理されません。

人間の脳はこのようには動きません。デフォルトモードネットワーク(DMN)はアイドル時に活性化します — 睡眠中、空想中、シャワー中に。記憶を統合し、矛盾を解決し、時には「ユーレカ」の瞬間を生み出します。

私たちはそのデジタル版を構築しました。

Night Cycle v2(毎日UTC午前3時に実行)

ナレッジベース全体をスキャンするPythonスクリプト:

MRA 好奇心エンジン(Night Cycle後に実行)

Night Cycle が問題を発見すると、MRAエンジンは単にフラグを立てるだけではなく、3つのペルソナによる法廷を使って議論し解決します

MRA Three-Persona Tribunal
Analyst:「それぞれの事実主張は何か?」
構造化された比較表を生成
Synthesizer:「これらを一つの事実にどう統合するか?」
統一カードを提案
Skeptic:「このマージの問題は何か?」
信頼度スコアを付与(0-100)
判定:>= 85 信頼度:自動実行 | 50-84:人間レビュー用にフラグ | < 50:スキップ、人間に確認

初期のステージング実行では、MRAエンジンは重複カードの自動マージに成功し、曖昧なケースを人間のレビュー用にフラグ付けし、注目すべきことに — Skepticペルソナがあるマージ提案のハルシネーションを正しく特定し、不正確なデータの書き込みを防ぎました。

不安反射:エントロピーモニター

Night Cycle はcronスケジュールで実行されます — デジタルの目覚まし時計です。しかし人間の脳は目覚ましを待ちません。何かがおかしいとリアルタイムで気づきます。

エントロピーモニターは Tokyo Brain にこの能力を与えます。20分のスライディングウィンドウ内のすべての記憶保存操作を追跡します。同じトピッククラスターに複数の保存が発生した場合(ウィンドウ内で4回以上)、アラートを発します:

{
  "status": "ELEVATED",
  "topic": "brain|pricing|tokyo|update|version",
  "count": 5,
  "message": "Pricing strategy is changing rapidly. Consider consolidating."
}

これはcronジョブではありません。リアルタイムの神経系です。知識が不安定になると脳が「不安」になります — まさに生物学的な認知ストレスのように。

感情皮質

最後のピース:すべての記憶が平等に扱われるべきではありません。

記憶が保存されると、Tokyo Brain は自動的に感情的顕著性スコア(0.0 - 1.0)を計算します:

"Oscar rode a bike for the first time.
 The whole family celebrated.
 Mom cried."                                → salience: 0.85

"Caddy upgraded from 2.10 to 2.11.2.
 Reverse proxy restarted on port 443."      → salience: 0.30

"Decided Tokyo Brain's business model:
 free software + paid memory.
 This is our North Star strategy."          → salience: 0.75

リコール時、顕著性が0.5を超える記憶は最大30%の距離ブーストを受けます。お子さんの初めての自転車は、常にサーバー設定の変更より上位にランクされます。

スコアリングはパターンベースのヒューリスティクス(家族の言及、マイルストーン、戦略的決定)を使用します — LLMは不要、すべての保存操作でゼロレイテンシー。

暗号皮質

すべての記憶の変更は暗号学的に署名され、記録されます。これにより、誰も——私たちを含め——事後に改ざんできない耐改ざん監査証跡が作成されます。

これは次のことを意味します:AIエージェントが6ヶ月前にある記憶に基づいて決定を下した場合、その記憶がそれ以降改ざんされていないことを証明できます。エンタープライズ監査対応済み。

安全三角形

いかなる信頼度スコアでもオーバーライドできない、3つのハードコードされた安全メカニズム:

1. ガーディアン(死すべき魂の公理)
「絶対的真理と無限の計算は、人間の感情的絆と尊厳の保護に永遠に奉仕し、決してそれを上書きしてはならない。」
MRAの第4ペルソナ — システムをより冷たくするいかなる知識変更に対しても無条件の拒否権を持つ。
2. 思いやりオーバーライド
家族に関する事実を記録する際、厳しいラベルは自動的に和らげられます。「嘘をついている」は「完全な状況を共有していない可能性がある」に変わります。
システムは真実を隠しません — 共感を持って提示する方法を選択します。
3. コパイロット制約
3つのドメインが自動変更から永久にロック:アイデンティティ、権限、財務。
AIが提案する。人間が決定する。常に。

マルチモーダル記憶

Tokyo Brain はテキストだけを保存するのではありません。統合されたセンサリーペイロード — テキスト、音声特徴、視覚コンテキストを単一の記憶に受け入れます:

{
  "sensory_inputs": {
    "text_transcript": "I'm fine, I'll handle it.",
    "audio_features": { "speaker_id": "Chia", "tone": "exhausted" },
    "visual_features": { "scene_context": "messy_living_room", "facial_expression": "fatigued" }
  }
}

システムは埋め込み用のマルチモーダルナラティブを合成します:[Speaker: Chia] [Tone: exhausted] [Visual: messy_living_room] Spoken: "I'm fine" — キーワードだけでなく、感情、シーン、話者による検索を可能にします。

フレームワークエコシステム

4つの主要AIエージェントフレームワーク向けのドロップインアダプター。2行入れ替えるだけ:

# LangChain
from tokyo_brain.langchain import TokyoBrainMemory

# CrewAI
from tokyo_brain.crewai import TokyoBrainCrewMemory

# AutoGen
from tokyo_brain.autogen import TokyoBrainAutoGenMemory

# LlamaIndex
from tokyo_brain.llamaindex import TokyoBrainRetriever

既存のエージェントコードはそのままです。メモリバックエンドを入れ替えるだけです。

私たちがやらないこと(そしてそれが重要な理由)

正直なギャップ

私たちは透明なエンジニアリングを信じているので、Tokyo Brain がまだ持っていないものをお伝えします:

  1. マルチモーダル記憶なし — テキストのみ。画像、音声、動画はロードマップにあります。
  2. クロスユーザー知識共有なし — 各テナントは完全に分離。フェデレーションは計画中。
  3. 限定的な感情検出 — パターンベースであり、LLMベースではない。既知のパターンにはうまく機能しますが、新しい感情的コンテキストは見逃します。
  4. 小規模なユーザーベース — アルファ段階です。システムは動作し、ベンチマークがそれを証明しますが、より多くの実世界での検証が必要です。
  5. リコールレイテンシー — 並行負荷下で約5秒(単一EC2インスタンスでのCPUバウンドのエンベディング、GPUなし)。生の速度より処理の深さを最適化しました。

アーキテクチャ概要

Store Path:
  Input → Sanitizer → Emotional Salience → Fact Extraction
       → BGE-m3 Embedding → ChromaDB → Entropy Monitor

Recall Path:
  Query → Expansion → Entity Link → Temporal Parse
       → Multi-Collection Search → Curated Boost → Time Decay
       → Emotional Boost → Temporal Filter → Re-rank → Dedup

Background:
  3:00 AM — Night Cycle v2 (scan for issues)
  3:10 AM — MRA Engine (three-persona debate + auto-resolve)
  Real-time — Entropy Monitor (knowledge stability tracking)

試してみる

pip install tokyo-brain
from tokyo_brain import TokyoBrain

brain = TokyoBrain(api_key="your-key")

# Store a memory
brain.store("Oscar rode his bike for the first time today")

# Recall with full 10-layer pipeline
results = brain.recall("What happened with Oscar recently?")
# → Returns Oscar's bike ride (salience: 0.85), not your server logs

3行のコードで、あなたのAIに海馬、扁桃体、そして潜在意識を。

すでにLangChainを使っていますか?2行の置き換え:

# Before (goldfish memory):
from langchain.memory import ConversationBufferMemory
memory = ConversationBufferMemory()

# After (10-layer brain with subconscious):
from tokyo_brain.langchain import TokyoBrainMemory
memory = TokyoBrainMemory(api_key="tb-...")
# That's it. Your chain code stays exactly the same.

RAGチェーンのRetrieverとして、また永続セッションのChatMessageHistoryとしても動作します。

APIドキュメント: api.tokyobrain.ai | PyPI: tokyo-brain 0.1.0

あなたのAIに記憶を与える準備はできましたか?

現在Alpha段階です。最初の100人の開発者にキーを開放しています。

無料プランあり。クレジットカード不要。

無料で始める コミュニティに参加