สองเดือนก่อน ทุกผลิตภัณฑ์ AI memory ที่เราทดสอบมีปัญหาเดียวกัน: เก็บทุกอย่างแต่ไม่เข้าใจอะไรเลย แนวทาง RAG มาตรฐานยัดทุกชิ้นส่วนของบทสนทนาลงใน vector DB อย่างเท่าเทียมกัน ทำให้เกิด context บวม และการใช้เหตุผลเสื่อมลงตามเวลา การเข้ารหัสและการแยก tenant มักไม่มี ไม่มีเอกสาร หรือไม่ชัดเจน
เราจึงสร้าง Tokyo Brain จากศูนย์ ภายใน 12 ชั่วโมง คะแนนพุ่งจาก 46% เป็น 83.8% บน LongMemEval — คะแนนสูงสุดที่เราสังเกตได้ในการทดสอบซ้ำของเราจนถึงตอนนี้
แต่นี่ไม่ใช่เรื่องเกี่ยวกับคะแนน benchmark เป็นเรื่องเกี่ยวกับสิ่งที่เกิดขึ้นเมื่อคุณหยุดสร้างฐานข้อมูลแล้วเริ่มสร้างสมอง
Benchmark ที่เริ่มต้นทุกอย่าง
LongMemEval คือชุดทดสอบ 500 คำถามที่ออกแบบโดยนักวิจัยเพื่อประเมินความจำระยะยาวในระบบ AI วัด 6 มิติทางปัญญา:
| มิติ | Tokyo Brain | ทดสอบอะไร |
|---|---|---|
| ความชอบในเซสชันเดียว | 100% (30/30) | "ผู้ใช้คนนี้ชอบอะไร?" |
| การใช้เหตุผลเชิงเวลา | 89% (118/133) | "X เกิดขึ้นเมื่อไหร่เทียบกับ Y?" |
| การอัปเดตความรู้ | 82% (64/78) | "X เปลี่ยนจาก A เป็น B — ปัจจุบันคืออะไร?" |
| หลายเซสชัน | 82% (109/133) | "ใน 5 บทสนทนา อะไรสอดคล้องกัน?" |
| ผู้ใช้เซสชันเดียว | 80% (56/70) | "ผู้ใช้พูดอะไรเกี่ยวกับตัวเอง?" |
| ผู้ช่วยเซสชันเดียว | 75% (42/56) | "AI แนะนำอะไร?" |
เพื่อเปรียบเทียบ เมื่อเรารัน benchmark เดียวกันกับระบบอื่นโดยใช้การตั้งค่าเริ่มต้น:
| ระบบ | คะแนน | ค่า inference | |
|---|---|---|---|
| 1 | Tokyo Brain | 83.8% | $0 |
| 2 | Supermemory | 81.6% | $$$ |
| 3 | Zep | 71.2% | $$ |
| 4 | Mem0 | 49.0% | $ |
คะแนนจากการทดสอบซ้ำภายในของเราโดยใช้ config เริ่มต้น เราวางแผนจะเปิด open-source ชุดเครื่องมือประเมินเพื่อให้ชุมชนสามารถตรวจสอบและทำซ้ำผลลัพธ์เหล่านี้ได้
เรารันทั้ง 500 คำถาม ไม่ใช่ชุดย่อยที่เลือกมา ข้อมูลทดสอบจาก HuggingFace วิธีการ: แต่ละคำถามเป็น recall query ต่อความจำที่เก็บไว้ก่อนหน้าจากบทสนทนาสังเคราะห์หลายเซสชัน
ทำไม 83.8%? เพราะเราลอกเลียนสมอง
ระบบ AI memory ส่วนใหญ่เป็นแค่ vector database ที่ถูกยกย่องเกินจริง เก็บ embedding, ดึงข้อมูลด้วย cosine similarity, จบ เหมือนสร้างห้องสมุดไม่มีบรรณารักษ์ — คุณหาหนังสือตามสีได้ แต่หาตามความหมายไม่ได้
สถาปัตยกรรมของ Tokyo Brain จำลองตามโครงสร้างทางชีววิทยาที่ทำให้ความจำมนุษย์ทำงานได้จริง:
Biological Brain Tokyo Brain ───────────────────── ──────────────────────────────── Prefrontal Cortex Redis Hot Memory (working memory) (bounded short-term working set) Hippocampus Fact Extraction → answer_cards (sleep consolidation) (distill noise into facts) Synaptic Network Query Expansion + Entity Link (associative recall) (one word activates a web) Synaptic Pruning Time Decay (healthy forgetting) (old info loses priority) Amygdala Emotional Salience Scoring (emotional tagging) (family > server configs) Default Mode Network Night Cycle + MRA Engine (subconscious) (self-heals while you sleep)
โมดูลเหล่านี้ถูกพัฒนาเป็นคอมโพเนนต์แยกกันในระบบ production ของเรา มาดูส่วนที่สำคัญที่สุดกัน
การเดินทาง: จาก 46% เป็น 83.8%
Recall Pipeline 10 ชั้น
เมื่อคุณ query Tokyo Brain คำถามของคุณไม่ได้แค่ไปถึง vector database แต่ผ่าน 10 ขั้นตอนการประมวลผล — แต่ละขั้นตอนออกแบบมาเพื่อแก้ไข failure mode เฉพาะที่เราสังเกตเห็นระหว่างการทดสอบ ไม่มีการเรียก LLM ไม่มีโมเดล re-ranking ราคาแพง วิศวกรรมการเรียกคืนล้วนๆ
แต่ละชั้นถูกเพิ่มเพื่อแก้ไข benchmark failure เฉพาะ ผลรวม: 46% เป็น 83.8% ในเซสชันพัฒนาเดียว
คณิตศาสตร์: Expected Utility ไม่ใช่ Brute Force
ระบบ RAG ส่วนใหญ่ดึงความจำจากสัญญาณเดียว: ความคล้ายคลึงทางความหมาย สิ่งนี้ผิดพลาดโดยพื้นฐานสำหรับการรับรู้ที่ซับซ้อน — สับสนระหว่างความเกี่ยวข้อง (ความทับซ้อนทางความหมาย) กับประโยชน์ (มูลค่าสำหรับงานปัจจุบัน)
เบื้องหลัง pipeline คือหลักการง่ายๆ ที่ได้แรงบันดาลใจจากแนวคิด expected utility ในวิทยาศาสตร์การรับรู้และทฤษฎีการตัดสินใจ — แนวคิดที่ว่าการดึงความจำควรเพิ่มมูลค่าที่คาดหวังของข้อมูลที่คืนมาให้สูงสุด ไม่ใช่แค่ลด vector distance ให้น้อยที่สุด:
| องค์ประกอบ | ชั้น Tokyo Brain | ทำอะไร |
|---|---|---|
| P(relevant) | Query Expansion + Entity Linking | ค้นหา semantic หลาย query พร้อมแก้ alias |
| V(information) | Curated Boost | ข้อเท็จจริงที่ยืนยันและ answer cards ได้รับความสำคัญ |
| T(freshness) | Time Decay | ความจำใหม่กว่าได้คะแนนระยะทางต่ำกว่า |
| E(emotion) | Emotional Salience | ความจำครอบครัวอยู่เหนือ config เซิร์ฟเวอร์ |
ข้อมูลเชิงลึกสำคัญ: การเรียกคืนไม่ใช่ปัญหาการค้นหา — เป็นปัญหาการจัดสรรทรัพยากร ด้วย context window ที่จำกัด ความจำใดที่เพิ่มประโยชน์คาดหวังรวมสูงสุดสำหรับงานปัจจุบัน? ระบบส่วนใหญ่หยุดที่ P (cosine similarity) บางระบบเพิ่ม T (ความใหม่) เราไม่เคยเห็นผลิตภัณฑ์อื่นที่รวม E (emotional salience) — ให้คะแนนความจำตามว่ามันสำคัญแค่ไหนสำหรับคุณในฐานะมนุษย์ ไม่ใช่แค่ว่ามันใกล้เคียงทาง semantic กับ query ของคุณแค่ไหน
จิตใต้สำนึก: Night Cycle + MRA Engine
ตรงนี้คือจุดที่ Tokyo Brain แตกต่างจากทุกผลิตภัณฑ์ในตลาด
ทุกระบบ AI memory เป็น passive คุณถาม มันดึงข้อมูล คุณไม่ถาม มันนั่งเฉย เหมือนห้องสมุดไม่มีบรรณารักษ์ — หนังสือไม่เคยถูกจัดเรียงใหม่จนกว่าจะมีคนเดินเข้ามา
สมองมนุษย์ไม่ทำงานแบบนี้ Default Mode Network (DMN) ของคุณทำงานเมื่อคุณว่าง — ระหว่างนอนหลับ ฝันกลางวัน หรืออาบน้ำ มันรวบรวมความจำ แก้ไขความขัดแย้ง และบางครั้งสร้างช่วงเวลา "ยูเรก้า"
เราสร้างเวอร์ชันดิจิทัลขึ้นมา
Night Cycle v2 (รันทุกวันเวลา 3:00 AM UTC)
สคริปต์ Python ที่สแกนฐานความรู้ทั้งหมดเพื่อหา:
- ข้อมูลเกือบซ้ำ — การ์ดที่มี embedding similarity >88% ผู้สมัครสำหรับการรวม
- การ์ดเก่า — ข้อเท็จจริงเก่ากว่า 30 วันที่มีข้อมูลใหม่กว่า ต้องอัปเดต
- การตัดสินใจกำพร้า — การตัดสินใจสำคัญที่บันทึกในบันทึกประจำวันแต่ไม่เคยถูกกลั่นเป็นความรู้ถาวร
- การ์ดขยะ — รายการที่สั้นเกินไป ยาวเกินไป หรือส่วนใหญ่เป็น formatting noise
MRA Curiosity Engine (รันหลัง Night Cycle)
เมื่อ Night Cycle พบปัญหา MRA engine ไม่ได้แค่ทำเครื่องหมาย — มันถกเถียงและแก้ไขโดยใช้คณะตุลาการสามบุคลิก:
ในการรัน staging เบื้องต้น MRA engine รวมการ์ดซ้ำโดยอัตโนมัติสำเร็จ ทำเครื่องหมายกรณีคลุมเครือสำหรับการตรวจสอบโดยมนุษย์ และ — ที่น่าสังเกต — บุคลิก Skeptic ระบุ hallucination ในการรวมที่เสนอได้ถูกต้อง ป้องกันไม่ให้ข้อมูลผิดถูกเขียนลงไป
สัญชาตญาณความกังวล: Entropy Monitor
Night Cycle รันตามตาราง cron — นาฬิกาปลุกดิจิทัล แต่สมองมนุษย์ไม่รอนาฬิกาปลุก มันสังเกตเมื่อมีอะไรผิดปกติแบบเรียลไทม์
Entropy Monitor ให้ Tokyo Brain มีความสามารถนี้ มันติดตามทุกการ store ความจำใน sliding window 20 นาที เมื่อตรวจพบหลายการ store ที่ตกใน topic cluster เดียวกัน (>=4 ใน window) มันจะส่งการแจ้งเตือน:
{
"status": "ELEVATED",
"topic": "brain|pricing|tokyo|update|version",
"count": 5,
"message": "Pricing strategy is changing rapidly. Consider consolidating."
}
นี่ไม่ใช่ cron job เป็นระบบประสาทแบบเรียลไทม์ สมอง "วิตกกังวล" เมื่อความรู้ไม่เสถียร — เหมือนกับ epistemic stress ทางชีววิทยา
Emotional Cortex
ชิ้นส่วนสุดท้าย: ความจำทุกอันไม่ควรได้รับการปฏิบัติเท่ากัน
เมื่อความจำถูกเก็บ Tokyo Brain จะคำนวณ Emotional Salience Score (0.0 - 1.0) โดยอัตโนมัติ:
"Oscar rode a bike for the first time. The whole family celebrated. Mom cried." → salience: 0.85 "Caddy upgraded from 2.10 to 2.11.2. Reverse proxy restarted on port 443." → salience: 0.30 "Decided Tokyo Brain's business model: free software + paid memory. This is our North Star strategy." → salience: 0.75
ระหว่างการ recall ความจำที่มี salience > 0.5 ได้รับ distance boost สูงสุด 30% การขี่จักรยานครั้งแรกของลูกคุณจะอยู่เหนือการเปลี่ยน server config เสมอ
การให้คะแนนใช้ heuristics ตามรูปแบบ (การกล่าวถึงครอบครัว, เหตุการณ์สำคัญ, การตัดสินใจเชิงกลยุทธ์) — ไม่ต้องใช้ LLM, zero latency ในทุกการ store
Cryptographic Cortex
ทุกการแก้ไขความจำจะถูกเซ็นด้วยรหัสลับและบันทึกไว้ สิ่งนี้สร้าง audit trail ที่ป้องกันการแก้ไขย้อนหลัง ซึ่งไม่มีใคร — รวมถึงเราเอง — สามารถเปลี่ยนแปลงได้หลังจากนั้น
- SHA-256 Hash — ทุกความจำได้รับ content fingerprint ที่ไม่ซ้ำกันเมื่อเขียน
- Digital Signature — ทุกการเปลี่ยนแปลงถูกเซ็นด้วย wallet key ที่เข้ากันได้กับ Ethereum
- Evidence Chain — ประวัติการเปลี่ยนแปลงทั้งหมด: ใครเปลี่ยนอะไร เมื่อไหร่ และทำไม
- การตรวจสอบ — ใครก็ตามสามารถตรวจสอบความสมบูรณ์ของความจำผ่าน endpoint
/verify
นี่หมายความว่า: ถ้า AI agent ตัดสินใจบนพื้นฐานของความจำเมื่อหกเดือนก่อน คุณสามารถพิสูจน์ได้ว่าความจำนั้นไม่ถูกแก้ไขตั้งแต่นั้นมา พร้อมสำหรับการตรวจสอบระดับองค์กร
Safety Triangle
กลไกความปลอดภัยแบบ hardcode สามตัวที่ไม่มี confidence score ใดสามารถ override ได้:
Multimodal Memory
Tokyo Brain ไม่ได้เก็บแค่ข้อความ มันรับ unified sensory payloads — ข้อความ, คุณสมบัติเสียง, และบริบทภาพในความจำเดียว:
{
"sensory_inputs": {
"text_transcript": "I'm fine, I'll handle it.",
"audio_features": { "speaker_id": "Chia", "tone": "exhausted" },
"visual_features": { "scene_context": "messy_living_room", "facial_expression": "fatigued" }
}
}
ระบบสังเคราะห์ multimodal narrative สำหรับ embedding: [Speaker: Chia] [Tone: exhausted] [Visual: messy_living_room] Spoken: "I'm fine" — ทำให้สามารถ recall ตามอารมณ์ ฉาก หรือผู้พูด ไม่ใช่แค่คำสำคัญ
Framework Ecosystem
Drop-in adapters สำหรับสี่ framework หลักของ AI agent สลับแค่สองบรรทัด:
# LangChain from tokyo_brain.langchain import TokyoBrainMemory # CrewAI from tokyo_brain.crewai import TokyoBrainCrewMemory # AutoGen from tokyo_brain.autogen import TokyoBrainAutoGenMemory # LlamaIndex from tokyo_brain.llamaindex import TokyoBrainRetriever
โค้ด agent ที่มีอยู่ของคุณยังคงเหมือนเดิมทุกประการ คุณแค่สลับ memory backend
สิ่งที่เราไม่ทำ (และทำไมมันสำคัญ)
- ไม่มีแนวทาง "เก็บทุกอย่าง" Sanitizer ในตัวกรอง content ที่มีสัญญาณต่ำก่อนเก็บ เราเชื่อว่าการกรองอย่างเข้มข้นให้ recall ที่ดีกว่าการสะสมทุกอย่าง
- ไม่มี vendor lock-in BYOK (Bring Your Own Key) — ใช้ LLM provider ของคุณเอง เราเก็บค่าเฉพาะ memory infrastructure ไม่เคยเก็บค่า compute
- เข้ารหัสเป็นค่าเริ่มต้น AES-256-GCM encryption at rest แยก key ต่อ tenant นี่เป็นข้อกำหนดด้านการออกแบบตั้งแต่วันแรก
- ไม่มีอคติเฉพาะภาษาอังกฤษ BGE-m3 embeddings + รองรับ 50+ ภาษา Query เป็นภาษาจีน ดึงความจำที่เก็บเป็นภาษาอังกฤษ
ช่องว่างที่ซื่อสัตย์
เราเชื่อในวิศวกรรมที่โปร่งใส นี่คือสิ่งที่ Tokyo Brain ยังไม่มี:
- ไม่มีความจำแบบ multimodal — ข้อความเท่านั้น รูปภาพ เสียง และวิดีโออยู่ใน roadmap
- ไม่มีการแชร์ความรู้ข้ามผู้ใช้ — แต่ละ tenant แยกกันอย่างสมบูรณ์ Federation อยู่ในแผน
- การตรวจจับอารมณ์จำกัด — ตามรูปแบบ ไม่ใช่ตาม LLM ทำงานได้ดีสำหรับรูปแบบที่รู้จัก พลาดบริบทอารมณ์ใหม่ๆ
- ฐานผู้ใช้เล็ก — เราอยู่ใน alpha ระบบทำงาน benchmark พิสูจน์แล้ว แต่เราต้องการการตรวจสอบจากโลกจริงมากขึ้น
- Recall latency — ~5 วินาทีภายใต้โหลดพร้อมกัน (CPU-bound embedding บน EC2 instance เดียว ไม่มี GPU) เราเลือกปรับให้ดีที่ความลึกของการประมวลผลมากกว่าความเร็วดิบ
สรุปสถาปัตยกรรม
Store Path:
Input → Sanitizer → Emotional Salience → Fact Extraction
→ BGE-m3 Embedding → ChromaDB → Entropy Monitor
Recall Path:
Query → Expansion → Entity Link → Temporal Parse
→ Multi-Collection Search → Curated Boost → Time Decay
→ Emotional Boost → Temporal Filter → Re-rank → Dedup
Background:
3:00 AM — Night Cycle v2 (scan for issues)
3:10 AM — MRA Engine (three-persona debate + auto-resolve)
Real-time — Entropy Monitor (knowledge stability tracking)
ลองใช้
pip install tokyo-brain
from tokyo_brain import TokyoBrain
brain = TokyoBrain(api_key="your-key")
# Store a memory
brain.store("Oscar rode his bike for the first time today")
# Recall with full 10-layer pipeline
results = brain.recall("What happened with Oscar recently?")
# → Returns Oscar's bike ride (salience: 0.85), not your server logs
สามบรรทัดเพื่อให้ AI ของคุณมี hippocampus, amygdala และจิตใต้สำนึก
ใช้ LangChain อยู่แล้ว? สลับแค่สองบรรทัด:
# Before (goldfish memory): from langchain.memory import ConversationBufferMemory memory = ConversationBufferMemory() # After (10-layer brain with subconscious): from tokyo_brain.langchain import TokyoBrainMemory memory = TokyoBrainMemory(api_key="tb-...") # That's it. Your chain code stays exactly the same.
ยังทำงานเป็น Retriever สำหรับ RAG chains และเป็น ChatMessageHistory สำหรับ persistent sessions
PyPI: tokyo-brain 0.1.0