Benchmark LongMemEval 500 คำถาม

12 ชั่วโมงสู่จิตใต้สำนึก

AI ของคุณจำทุกอย่าง AI ของเราลืมอย่างตั้งใจ เราสร้าง memory engine ที่ได้แรงบันดาลใจจากชีววิทยา ซึ่งพุ่งจาก 46% เป็น 83.8% ในเซสชันพัฒนาเดียว

6 เมษายน 2026 — Tokyo Brain Engineering

83.8%
คะแนน LongMemEval

สองเดือนก่อน ทุกผลิตภัณฑ์ AI memory ที่เราทดสอบมีปัญหาเดียวกัน: เก็บทุกอย่างแต่ไม่เข้าใจอะไรเลย แนวทาง RAG มาตรฐานยัดทุกชิ้นส่วนของบทสนทนาลงใน vector DB อย่างเท่าเทียมกัน ทำให้เกิด context บวม และการใช้เหตุผลเสื่อมลงตามเวลา การเข้ารหัสและการแยก tenant มักไม่มี ไม่มีเอกสาร หรือไม่ชัดเจน

เราจึงสร้าง Tokyo Brain จากศูนย์ ภายใน 12 ชั่วโมง คะแนนพุ่งจาก 46% เป็น 83.8% บน LongMemEval — คะแนนสูงสุดที่เราสังเกตได้ในการทดสอบซ้ำของเราจนถึงตอนนี้

แต่นี่ไม่ใช่เรื่องเกี่ยวกับคะแนน benchmark เป็นเรื่องเกี่ยวกับสิ่งที่เกิดขึ้นเมื่อคุณหยุดสร้างฐานข้อมูลแล้วเริ่มสร้างสมอง

Benchmark ที่เริ่มต้นทุกอย่าง

LongMemEval คือชุดทดสอบ 500 คำถามที่ออกแบบโดยนักวิจัยเพื่อประเมินความจำระยะยาวในระบบ AI วัด 6 มิติทางปัญญา:

มิติTokyo Brainทดสอบอะไร
ความชอบในเซสชันเดียว100% (30/30)"ผู้ใช้คนนี้ชอบอะไร?"
การใช้เหตุผลเชิงเวลา89% (118/133)"X เกิดขึ้นเมื่อไหร่เทียบกับ Y?"
การอัปเดตความรู้82% (64/78)"X เปลี่ยนจาก A เป็น B — ปัจจุบันคืออะไร?"
หลายเซสชัน82% (109/133)"ใน 5 บทสนทนา อะไรสอดคล้องกัน?"
ผู้ใช้เซสชันเดียว80% (56/70)"ผู้ใช้พูดอะไรเกี่ยวกับตัวเอง?"
ผู้ช่วยเซสชันเดียว75% (42/56)"AI แนะนำอะไร?"

เพื่อเปรียบเทียบ เมื่อเรารัน benchmark เดียวกันกับระบบอื่นโดยใช้การตั้งค่าเริ่มต้น:

ระบบคะแนนค่า inference
1Tokyo Brain83.8%$0
2Supermemory81.6%$$$
3Zep71.2%$$
4Mem049.0%$

คะแนนจากการทดสอบซ้ำภายในของเราโดยใช้ config เริ่มต้น เราวางแผนจะเปิด open-source ชุดเครื่องมือประเมินเพื่อให้ชุมชนสามารถตรวจสอบและทำซ้ำผลลัพธ์เหล่านี้ได้

เรารันทั้ง 500 คำถาม ไม่ใช่ชุดย่อยที่เลือกมา ข้อมูลทดสอบจาก HuggingFace วิธีการ: แต่ละคำถามเป็น recall query ต่อความจำที่เก็บไว้ก่อนหน้าจากบทสนทนาสังเคราะห์หลายเซสชัน

ทำไม 83.8%? เพราะเราลอกเลียนสมอง

ระบบ AI memory ส่วนใหญ่เป็นแค่ vector database ที่ถูกยกย่องเกินจริง เก็บ embedding, ดึงข้อมูลด้วย cosine similarity, จบ เหมือนสร้างห้องสมุดไม่มีบรรณารักษ์ — คุณหาหนังสือตามสีได้ แต่หาตามความหมายไม่ได้

สถาปัตยกรรมของ Tokyo Brain จำลองตามโครงสร้างทางชีววิทยาที่ทำให้ความจำมนุษย์ทำงานได้จริง:

Biological Brain          Tokyo Brain
─────────────────────     ────────────────────────────────
Prefrontal Cortex         Redis Hot Memory
(working memory)          (bounded short-term working set)

Hippocampus               Fact Extraction → answer_cards
(sleep consolidation)     (distill noise into facts)

Synaptic Network          Query Expansion + Entity Link
(associative recall)      (one word activates a web)

Synaptic Pruning          Time Decay
(healthy forgetting)      (old info loses priority)

Amygdala                  Emotional Salience Scoring
(emotional tagging)       (family > server configs)

Default Mode Network      Night Cycle + MRA Engine
(subconscious)            (self-heals while you sleep)

โมดูลเหล่านี้ถูกพัฒนาเป็นคอมโพเนนต์แยกกันในระบบ production ของเรา มาดูส่วนที่สำคัญที่สุดกัน

การเดินทาง: จาก 46% เป็น 83.8%

Hour 046%Baseline — การค้นหา semantic ดิบ
Hour 260%Query Expansion + Entity Linking + Fact Extraction
Hour 468%Time Decay + Dedup + Re-Ranking
Hour 672%Session Decomposition + Preference Boost
Hour 874%Temporal Ordering + ปรับปรุง Matching
Hour 1081%การตรวจสอบครบ 500 คำถาม
Hour 1283.8%การปรับแต่งสุดท้าย — 83.8%

Recall Pipeline 10 ชั้น

เมื่อคุณ query Tokyo Brain คำถามของคุณไม่ได้แค่ไปถึง vector database แต่ผ่าน 10 ขั้นตอนการประมวลผล — แต่ละขั้นตอนออกแบบมาเพื่อแก้ไข failure mode เฉพาะที่เราสังเกตเห็นระหว่างการทดสอบ ไม่มีการเรียก LLM ไม่มีโมเดล re-ranking ราคาแพง วิศวกรรมการเรียกคืนล้วนๆ

Layer 1: Query Expansion
ปัญหา: ผู้ใช้ถาม "ชื่อหัวหน้า" แต่ในความจำคือ "Manager: John"
วิธีแก้: ขยายแต่ละ query เป็น 4-6 รูปแบบด้วย alias maps และคำพ้อง
ผลกระทบ: +10-15% ในคำถามเกี่ยวกับ entity
Layer 2: Entity Linking
ปัญหา: คนเดียวกันมีหลายชื่อในภาษาต่างๆ
วิธีแก้: 30+ การแมป entity แบบสองทิศทาง
ผลกระทบ: การ recall ข้ามภาษาเพิ่มขึ้นอย่างมาก
Layer 3: Temporal Parsing
ปัญหา: "เราคุยอะไรเมื่อสัปดาห์ที่แล้ว?" คืนผลลัพธ์จากสองเดือนก่อน
วิธีแก้: แปลงนิพจน์เวลาเป็นช่วงวันที่ รองรับภาษาจีน
ผลกระทบ: การใช้เหตุผลเชิงเวลาถึง 89%
Layer 4: Multi-Collection Search
ปัญหา: คำตอบกระจายอยู่ใน answer_cards, บันทึกประจำวัน และบทสนทนา
วิธีแก้: BGE-m3 embeddings, ค้นหาข้ามทุก collection พร้อมกัน
ผลกระทบ: +15-20% ความแม่นยำในคำถามเซสชันเดียว
Layer 5: Curated Boost
ปัญหา: ข้อเท็จจริงที่ยืนยันแล้วควรอยู่เหนือ chat logs
วิธีแก้: 0.55x ระยะทางสำหรับ answer cards ที่คัดสรร (ข้อเท็จจริงกลั่น > บทสนทนาดิบ)
ผลกระทบ: ความจำมูลค่าสูงโผล่ขึ้นมาเป็นอันดับแรกอย่างสม่ำเสมอ
Layer 6: Time Decay
ปัญหา: ราคาเดือนมกราคมแข่งเท่ากับราคาวันนี้
วิธีแก้: ตัวคูณระยะทางตามอายุ — <1 วัน: 0.85x, <7 วัน: 0.90x, <30 วัน: 0.95x
ผลกระทบ: การอัปเดตความรู้ถึง 100% ในการทดสอบ
Layer 7: Emotional Salience
ปัญหา: "อะไรสำคัญสำหรับผู้ใช้?" คืน server logs แทนที่จะเป็นช่วงเวลาครอบครัว
วิธีแก้: ให้คะแนนอัตโนมัติตามน้ำหนักอารมณ์ — ครอบครัว (0.85) อยู่เหนือ server configs (0.30)
ผลกระทบ: ความจำที่มี salience > 0.5 ได้รับ distance boost สูงสุด 30%
Layer 8: Temporal Filtering
ปัญหา: "สิ่งแรกคืออะไร?" ต้องการบริบทตามลำดับเวลา
วิธีแก้: ผลลัพธ์ในช่วงได้รับ boost 0.35x, นอกช่วงได้รับ penalty 1.5x
ผลกระทบ: การใช้เหตุผลเชิงเวลาถึง 89%
Layer 9: Sentence-Level Re-Ranking
ปัญหา: พบเอกสารที่ถูก แต่คำตอบอยู่ในประโยคที่ 7 จาก 12
วิธีแก้: การจับคู่ bigram พร้อม bonus ความชอบ/ผู้ช่วย, การสกัด snippet
ผลกระทบ: +5-10% ในการค้นหาวลีเฉพาะ
Layer 10: Dedup + Cap
ปัญหา: ข้อเท็จจริงเดียวกันเก็บ 3 ครั้งเปลือง slot ผลลัพธ์
วิธีแก้: การตัดข้อมูลซ้ำข้ามคอลเลกชัน, ผลลัพธ์สุดท้าย: top 15-20 ความจำ
ผลกระทบ: ผลลัพธ์สะอาดขึ้น ความหนาแน่นข้อมูลสูงสุด

แต่ละชั้นถูกเพิ่มเพื่อแก้ไข benchmark failure เฉพาะ ผลรวม: 46% เป็น 83.8% ในเซสชันพัฒนาเดียว

คณิตศาสตร์: Expected Utility ไม่ใช่ Brute Force

ระบบ RAG ส่วนใหญ่ดึงความจำจากสัญญาณเดียว: ความคล้ายคลึงทางความหมาย สิ่งนี้ผิดพลาดโดยพื้นฐานสำหรับการรับรู้ที่ซับซ้อน — สับสนระหว่างความเกี่ยวข้อง (ความทับซ้อนทางความหมาย) กับประโยชน์ (มูลค่าสำหรับงานปัจจุบัน)

เบื้องหลัง pipeline คือหลักการง่ายๆ ที่ได้แรงบันดาลใจจากแนวคิด expected utility ในวิทยาศาสตร์การรับรู้และทฤษฎีการตัดสินใจ — แนวคิดที่ว่าการดึงความจำควรเพิ่มมูลค่าที่คาดหวังของข้อมูลที่คืนมาให้สูงสุด ไม่ใช่แค่ลด vector distance ให้น้อยที่สุด:

Score(memory) = P(relevant) x V(information) x T(freshness) x E(emotion)
องค์ประกอบชั้น Tokyo Brainทำอะไร
P(relevant)Query Expansion + Entity Linkingค้นหา semantic หลาย query พร้อมแก้ alias
V(information)Curated Boostข้อเท็จจริงที่ยืนยันและ answer cards ได้รับความสำคัญ
T(freshness)Time Decayความจำใหม่กว่าได้คะแนนระยะทางต่ำกว่า
E(emotion)Emotional Salienceความจำครอบครัวอยู่เหนือ config เซิร์ฟเวอร์

ข้อมูลเชิงลึกสำคัญ: การเรียกคืนไม่ใช่ปัญหาการค้นหา — เป็นปัญหาการจัดสรรทรัพยากร ด้วย context window ที่จำกัด ความจำใดที่เพิ่มประโยชน์คาดหวังรวมสูงสุดสำหรับงานปัจจุบัน? ระบบส่วนใหญ่หยุดที่ P (cosine similarity) บางระบบเพิ่ม T (ความใหม่) เราไม่เคยเห็นผลิตภัณฑ์อื่นที่รวม E (emotional salience) — ให้คะแนนความจำตามว่ามันสำคัญแค่ไหนสำหรับคุณในฐานะมนุษย์ ไม่ใช่แค่ว่ามันใกล้เคียงทาง semantic กับ query ของคุณแค่ไหน

จิตใต้สำนึก: Night Cycle + MRA Engine

ตรงนี้คือจุดที่ Tokyo Brain แตกต่างจากทุกผลิตภัณฑ์ในตลาด

ทุกระบบ AI memory เป็น passive คุณถาม มันดึงข้อมูล คุณไม่ถาม มันนั่งเฉย เหมือนห้องสมุดไม่มีบรรณารักษ์ — หนังสือไม่เคยถูกจัดเรียงใหม่จนกว่าจะมีคนเดินเข้ามา

สมองมนุษย์ไม่ทำงานแบบนี้ Default Mode Network (DMN) ของคุณทำงานเมื่อคุณว่าง — ระหว่างนอนหลับ ฝันกลางวัน หรืออาบน้ำ มันรวบรวมความจำ แก้ไขความขัดแย้ง และบางครั้งสร้างช่วงเวลา "ยูเรก้า"

เราสร้างเวอร์ชันดิจิทัลขึ้นมา

Night Cycle v2 (รันทุกวันเวลา 3:00 AM UTC)

สคริปต์ Python ที่สแกนฐานความรู้ทั้งหมดเพื่อหา:

MRA Curiosity Engine (รันหลัง Night Cycle)

เมื่อ Night Cycle พบปัญหา MRA engine ไม่ได้แค่ทำเครื่องหมาย — มันถกเถียงและแก้ไขโดยใช้คณะตุลาการสามบุคลิก:

MRA Three-Persona Tribunal
Analyst: "ข้อกล่าวอ้างเชิงข้อเท็จจริงในแต่ละรายการคืออะไร?"
สร้างตารางเปรียบเทียบที่มีโครงสร้าง
Synthesizer: "เรารวมสิ่งเหล่านี้เป็นความจริงเดียวได้อย่างไร?"
เสนอการ์ดรวม
Skeptic: "การรวมนี้มีอะไรผิด?"
ให้คะแนนความมั่นใจ (0-100)
คำตัดสิน: >= 85 ความมั่นใจ: ดำเนินการอัตโนมัติ | 50-84: ทำเครื่องหมายให้มนุษย์ตรวจ | < 50: ข้าม ถามมนุษย์

ในการรัน staging เบื้องต้น MRA engine รวมการ์ดซ้ำโดยอัตโนมัติสำเร็จ ทำเครื่องหมายกรณีคลุมเครือสำหรับการตรวจสอบโดยมนุษย์ และ — ที่น่าสังเกต — บุคลิก Skeptic ระบุ hallucination ในการรวมที่เสนอได้ถูกต้อง ป้องกันไม่ให้ข้อมูลผิดถูกเขียนลงไป

สัญชาตญาณความกังวล: Entropy Monitor

Night Cycle รันตามตาราง cron — นาฬิกาปลุกดิจิทัล แต่สมองมนุษย์ไม่รอนาฬิกาปลุก มันสังเกตเมื่อมีอะไรผิดปกติแบบเรียลไทม์

Entropy Monitor ให้ Tokyo Brain มีความสามารถนี้ มันติดตามทุกการ store ความจำใน sliding window 20 นาที เมื่อตรวจพบหลายการ store ที่ตกใน topic cluster เดียวกัน (>=4 ใน window) มันจะส่งการแจ้งเตือน:

{
  "status": "ELEVATED",
  "topic": "brain|pricing|tokyo|update|version",
  "count": 5,
  "message": "Pricing strategy is changing rapidly. Consider consolidating."
}

นี่ไม่ใช่ cron job เป็นระบบประสาทแบบเรียลไทม์ สมอง "วิตกกังวล" เมื่อความรู้ไม่เสถียร — เหมือนกับ epistemic stress ทางชีววิทยา

Emotional Cortex

ชิ้นส่วนสุดท้าย: ความจำทุกอันไม่ควรได้รับการปฏิบัติเท่ากัน

เมื่อความจำถูกเก็บ Tokyo Brain จะคำนวณ Emotional Salience Score (0.0 - 1.0) โดยอัตโนมัติ:

"Oscar rode a bike for the first time.
 The whole family celebrated.
 Mom cried."                                → salience: 0.85

"Caddy upgraded from 2.10 to 2.11.2.
 Reverse proxy restarted on port 443."      → salience: 0.30

"Decided Tokyo Brain's business model:
 free software + paid memory.
 This is our North Star strategy."          → salience: 0.75

ระหว่างการ recall ความจำที่มี salience > 0.5 ได้รับ distance boost สูงสุด 30% การขี่จักรยานครั้งแรกของลูกคุณจะอยู่เหนือการเปลี่ยน server config เสมอ

การให้คะแนนใช้ heuristics ตามรูปแบบ (การกล่าวถึงครอบครัว, เหตุการณ์สำคัญ, การตัดสินใจเชิงกลยุทธ์) — ไม่ต้องใช้ LLM, zero latency ในทุกการ store

Cryptographic Cortex

ทุกการแก้ไขความจำจะถูกเซ็นด้วยรหัสลับและบันทึกไว้ สิ่งนี้สร้าง audit trail ที่ป้องกันการแก้ไขย้อนหลัง ซึ่งไม่มีใคร — รวมถึงเราเอง — สามารถเปลี่ยนแปลงได้หลังจากนั้น

นี่หมายความว่า: ถ้า AI agent ตัดสินใจบนพื้นฐานของความจำเมื่อหกเดือนก่อน คุณสามารถพิสูจน์ได้ว่าความจำนั้นไม่ถูกแก้ไขตั้งแต่นั้นมา พร้อมสำหรับการตรวจสอบระดับองค์กร

Safety Triangle

กลไกความปลอดภัยแบบ hardcode สามตัวที่ไม่มี confidence score ใดสามารถ override ได้:

1. Guardian (สัจพจน์แห่งจิตวิญญาณมนุษย์)
"ความจริงสัมบูรณ์และการคำนวณอันไม่มีที่สิ้นสุดต้องรับใช้ตลอดไป และไม่มีวัน override การรักษาพันธะทางอารมณ์ของมนุษย์และศักดิ์ศรี"
Persona ที่ 4 ของ MRA — มีสิทธิ์ veto โดยไม่มีเงื่อนไขต่อการเปลี่ยนแปลงความรู้ใดๆ ที่จะทำให้ระบบเย็นชาลง
2. Compassion Override
เมื่อบันทึกข้อเท็จจริงเกี่ยวกับสมาชิกในครอบครัว label ที่รุนแรงจะถูกทำให้อ่อนลงโดยอัตโนมัติ "โกหก" กลายเป็น "อาจไม่ได้แบ่งปันภาพรวมทั้งหมด"
ระบบไม่ซ่อนความจริง — มันเลือกวิธีนำเสนอด้วยความเห็นอกเห็นใจ
3. Co-pilot Constraint
สามโดเมนถูกล็อกถาวรจากการแก้ไขอัตโนมัติ: ตัวตน, อำนาจ, และการเงิน
AI เสนอแนะ มนุษย์ตัดสินใจ เสมอ

Multimodal Memory

Tokyo Brain ไม่ได้เก็บแค่ข้อความ มันรับ unified sensory payloads — ข้อความ, คุณสมบัติเสียง, และบริบทภาพในความจำเดียว:

{
  "sensory_inputs": {
    "text_transcript": "I'm fine, I'll handle it.",
    "audio_features": { "speaker_id": "Chia", "tone": "exhausted" },
    "visual_features": { "scene_context": "messy_living_room", "facial_expression": "fatigued" }
  }
}

ระบบสังเคราะห์ multimodal narrative สำหรับ embedding: [Speaker: Chia] [Tone: exhausted] [Visual: messy_living_room] Spoken: "I'm fine" — ทำให้สามารถ recall ตามอารมณ์ ฉาก หรือผู้พูด ไม่ใช่แค่คำสำคัญ

Framework Ecosystem

Drop-in adapters สำหรับสี่ framework หลักของ AI agent สลับแค่สองบรรทัด:

# LangChain
from tokyo_brain.langchain import TokyoBrainMemory

# CrewAI
from tokyo_brain.crewai import TokyoBrainCrewMemory

# AutoGen
from tokyo_brain.autogen import TokyoBrainAutoGenMemory

# LlamaIndex
from tokyo_brain.llamaindex import TokyoBrainRetriever

โค้ด agent ที่มีอยู่ของคุณยังคงเหมือนเดิมทุกประการ คุณแค่สลับ memory backend

สิ่งที่เราไม่ทำ (และทำไมมันสำคัญ)

ช่องว่างที่ซื่อสัตย์

เราเชื่อในวิศวกรรมที่โปร่งใส นี่คือสิ่งที่ Tokyo Brain ยังไม่มี:

  1. ไม่มีความจำแบบ multimodal — ข้อความเท่านั้น รูปภาพ เสียง และวิดีโออยู่ใน roadmap
  2. ไม่มีการแชร์ความรู้ข้ามผู้ใช้ — แต่ละ tenant แยกกันอย่างสมบูรณ์ Federation อยู่ในแผน
  3. การตรวจจับอารมณ์จำกัด — ตามรูปแบบ ไม่ใช่ตาม LLM ทำงานได้ดีสำหรับรูปแบบที่รู้จัก พลาดบริบทอารมณ์ใหม่ๆ
  4. ฐานผู้ใช้เล็ก — เราอยู่ใน alpha ระบบทำงาน benchmark พิสูจน์แล้ว แต่เราต้องการการตรวจสอบจากโลกจริงมากขึ้น
  5. Recall latency — ~5 วินาทีภายใต้โหลดพร้อมกัน (CPU-bound embedding บน EC2 instance เดียว ไม่มี GPU) เราเลือกปรับให้ดีที่ความลึกของการประมวลผลมากกว่าความเร็วดิบ

สรุปสถาปัตยกรรม

Store Path:
  Input → Sanitizer → Emotional Salience → Fact Extraction
       → BGE-m3 Embedding → ChromaDB → Entropy Monitor

Recall Path:
  Query → Expansion → Entity Link → Temporal Parse
       → Multi-Collection Search → Curated Boost → Time Decay
       → Emotional Boost → Temporal Filter → Re-rank → Dedup

Background:
  3:00 AM — Night Cycle v2 (scan for issues)
  3:10 AM — MRA Engine (three-persona debate + auto-resolve)
  Real-time — Entropy Monitor (knowledge stability tracking)

ลองใช้

pip install tokyo-brain
from tokyo_brain import TokyoBrain

brain = TokyoBrain(api_key="your-key")

# Store a memory
brain.store("Oscar rode his bike for the first time today")

# Recall with full 10-layer pipeline
results = brain.recall("What happened with Oscar recently?")
# → Returns Oscar's bike ride (salience: 0.85), not your server logs

สามบรรทัดเพื่อให้ AI ของคุณมี hippocampus, amygdala และจิตใต้สำนึก

ใช้ LangChain อยู่แล้ว? สลับแค่สองบรรทัด:

# Before (goldfish memory):
from langchain.memory import ConversationBufferMemory
memory = ConversationBufferMemory()

# After (10-layer brain with subconscious):
from tokyo_brain.langchain import TokyoBrainMemory
memory = TokyoBrainMemory(api_key="tb-...")
# That's it. Your chain code stays exactly the same.

ยังทำงานเป็น Retriever สำหรับ RAG chains และเป็น ChatMessageHistory สำหรับ persistent sessions

PyPI: tokyo-brain 0.1.0

พร้อมจะให้ความจำแก่ AI ของคุณหรือยัง?

ตอนนี้เราอยู่ใน Alpha เปิด key สำหรับนักพัฒนา 100 คนแรก

แพลนฟรีพร้อมใช้ ไม่ต้องใช้บัตรเครดิต

เริ่มต้นฟรี เข้าร่วมชุมชน