Dua bulan lalu, setiap produk AI memory yang kami uji memiliki masalah yang sama: mereka menyimpan segalanya dan tidak memahami apa pun. Pendekatan RAG standar memasukkan setiap fragmen percakapan ke dalam vector DB secara merata, menyebabkan context membengkak dan penalaran menurun seiring waktu. Enkripsi dan tenant isolation sering kali tidak tersedia, tidak terdokumentasi, atau tidak jelas.
Jadi kami membangun Tokyo Brain dari nol. Dalam 12 jam, skornya naik dari 46% menjadi 83,8% pada LongMemEval — skor tertinggi yang kami amati dalam reproduction run kami sejauh ini.
Tapi ini bukan cerita tentang skor benchmark. Ini tentang apa yang terjadi ketika Anda berhenti membangun database dan mulai membangun otak.
Benchmark yang Memulai Segalanya
LongMemEval adalah rangkaian tes 500 pertanyaan yang dirancang oleh para peneliti untuk mengevaluasi memori jangka panjang dalam sistem AI. Ini mengukur enam dimensi kognitif:
| Dimensi | Tokyo Brain | Apa yang Diuji |
|---|---|---|
| Preferensi sesi tunggal | 100% (30/30) | «Apa yang disukai pengguna ini?» |
| Penalaran temporal | 89% (118/133) | «Kapan X terjadi relatif terhadap Y?» |
| Pembaruan pengetahuan | 82% (64/78) | «X berubah dari A ke B — apa yang terkini?» |
| Multi-sesi | 82% (109/133) | «Dalam 5 percakapan, apa yang konsisten?» |
| Pengguna sesi tunggal | 80% (56/70) | «Apa yang dikatakan pengguna tentang dirinya?» |
| Asisten sesi tunggal | 75% (42/56) | «Apa yang direkomendasikan AI?» |
Sebagai referensi, ketika kami menjalankan benchmark yang sama pada sistem lain menggunakan konfigurasi default mereka:
| Sistem | Skor | Biaya Inference | |
|---|---|---|---|
| 1 | Tokyo Brain | 83,8% | $0 |
| 2 | Supermemory | 81,6% | $$$ |
| 3 | Zep | 71,2% | $$ |
| 4 | Mem0 | 49,0% | $ |
Skor dari internal reproduction run kami menggunakan konfigurasi default. Kami berencana membuka sumber evaluation harness sehingga komunitas dapat memverifikasi dan mereproduksi hasil ini.
Kami menjalankan penuh 500 pertanyaan, bukan subset yang dipilih. Data tes dari HuggingFace. Metodologi: setiap pertanyaan adalah recall query terhadap memori yang sebelumnya disimpan dari percakapan sintetis multi-sesi.
Mengapa 83,8%? Karena Kami Meniru Otak
Sebagian besar sistem AI memory hanyalah vector database yang dilebih-lebihkan. Simpan embedding, ambil berdasarkan cosine similarity, selesai. Itu seperti membangun perpustakaan tanpa pustakawan — Anda bisa menemukan buku berdasarkan warna, tapi bukan berdasarkan makna.
Arsitektur Tokyo Brain dimodelkan berdasarkan struktur biologis yang membuat memori manusia benar-benar bekerja:
Biological Brain Tokyo Brain ───────────────────── ──────────────────────────────── Prefrontal Cortex Redis Hot Memory (working memory) (bounded short-term working set) Hippocampus Fact Extraction → answer_cards (sleep consolidation) (distill noise into facts) Synaptic Network Query Expansion + Entity Link (associative recall) (one word activates a web) Synaptic Pruning Time Decay (healthy forgetting) (old info loses priority) Amygdala Emotional Salience Scoring (emotional tagging) (family > server configs) Default Mode Network Night Cycle + MRA Engine (subconscious) (self-heals while you sleep)
Modul-modul ini diimplementasikan sebagai komponen terpisah dalam sistem produksi kami. Mari kita bahas yang paling penting.
Perjalanan: dari 46% ke 83,8%
Pipeline Recall 10 Lapisan
Ketika Anda melakukan query ke Tokyo Brain, pertanyaan Anda tidak hanya menyentuh vector database. Ia melewati 10 tahap pemrosesan — masing-masing dirancang untuk menyelesaikan failure mode spesifik. Tanpa LLM call. Tanpa model re-ranking mahal. Murni rekayasa retrieval.
Setiap lapisan ditambahkan untuk memperbaiki kegagalan benchmark spesifik. Efek gabungan: 46% menjadi 83,8% dalam satu sesi pengembangan.
Matematikanya: Expected Utility, Bukan Brute Force
Sebagian besar sistem RAG mengambil memori berdasarkan satu sinyal: semantic similarity. Ini cacat fundamental untuk kognisi kompleks — ia membingungkan relevansi (semantic overlap) dengan utilitas (nilai untuk tugas saat ini).
Di balik pipeline adalah prinsip sederhana yang dipinjam dari ilmu kognitif dan teori keputusan — gagasan bahwa pengambilan memori harus memaksimalkan nilai yang diharapkan dari informasi yang dikembalikan, bukan hanya meminimalkan jarak vektor:
| Komponen | Lapisan Tokyo Brain | Fungsi |
|---|---|---|
| P(relevant) | Query Expansion + Entity Linking | Multi-query semantic search dengan alias resolution |
| V(information) | Curated Boost | Prioritas fakta terverifikasi dan answer card |
| T(freshness) | Time Decay | Memori lebih baru mendapat skor distance lebih rendah |
| E(emotion) | Emotional Salience | Memori keluarga mengalahkan konfigurasi server |
Insight kuncinya: retrieval bukan masalah pencarian — ini masalah alokasi sumber daya. Dalam context window yang terbatas, memori mana yang memaksimalkan total expected utility untuk tugas saat ini? Sebagian besar sistem berhenti di P (cosine similarity). Beberapa menambahkan T (recency). Kami belum melihat produk lain yang menggabungkan E (emotional salience) — memberi skor memori berdasarkan seberapa penting bagi Anda sebagai manusia.
Alam Bawah Sadar: Night Cycle + MRA Engine
Di sinilah Tokyo Brain berbeda dari setiap produk lain di pasar.
Setiap sistem AI memory bersifat pasif. Anda bertanya, ia mengambil. Anda tidak bertanya, ia diam saja. Seperti perpustakaan tanpa pustakawan — buku-buku tidak pernah ditata ulang kecuali seseorang masuk.
Otak manusia tidak bekerja seperti ini. Default Mode Network (DMN) Anda aktif saat Anda idle — selama tidur, melamun, atau mandi. Ia mengkonsolidasi memori, menyelesaikan kontradiksi, dan terkadang menghasilkan momen «eureka».
Kami membangun padanan digitalnya.
Night Cycle v2 (berjalan setiap hari pukul 3:00 AM UTC)
Script Python yang memindai seluruh knowledge base untuk:
- Hampir duplikat — kartu dengan embedding similarity >88%, kandidat penggabungan
- Kartu basi — fakta lebih tua dari 30 hari di mana info lebih baru ada, perlu pembaruan
- Keputusan yatim — keputusan penting yang dicatat dalam catatan harian tetapi tidak pernah disuling menjadi pengetahuan permanen
- Kartu sampah — entri terlalu pendek, terlalu panjang, atau sebagian besar formatting noise
MRA Curiosity Engine (berjalan setelah Night Cycle)
Ketika Night Cycle menemukan masalah, MRA engine tidak hanya menandainya — ia memperdebatkan dan menyelesaikannya menggunakan tribunal tiga persona:
Dalam staging run awal kami, MRA engine berhasil auto-merge kartu duplikat, menandai kasus ambigu untuk tinjauan manusia, dan — yang patut dicatat — persona Skeptic dengan benar mengidentifikasi halusinasi dalam satu proposed merge, mencegah data buruk ditulis.
Refleks Kecemasan: Entropy Monitor
Night Cycle berjalan pada jadwal cron — jam alarm digital. Tapi otak manusia tidak menunggu alarm. Mereka menyadari ketika sesuatu terasa salah secara real-time.
Entropy Monitor memberikan Tokyo Brain kemampuan ini. Ia melacak setiap operasi penyimpanan memori dalam sliding window 20 menit. Ketika mendeteksi beberapa penyimpanan yang mengenai topic cluster yang sama (>=4 dalam window), ia memicu peringatan:
{
"status": "ELEVATED",
"topic": "brain|pricing|tokyo|update|version",
"count": 5,
"message": "Pricing strategy is changing rapidly. Consider consolidating."
}
Ini bukan cron job. Ini sistem saraf real-time. Otak menjadi «cemas» ketika pengetahuan menjadi tidak stabil — persis seperti epistemic stress biologis.
Korteks Emosional
Bagian terakhir: tidak semua memori harus diperlakukan sama.
Ketika sebuah memori disimpan, Tokyo Brain secara otomatis menghitung Emotional Salience Score (0.0 - 1.0):
"Oscar rode a bike for the first time. The whole family celebrated. Mom cried." → salience: 0.85 "Caddy upgraded from 2.10 to 2.11.2. Reverse proxy restarted on port 443." → salience: 0.30 "Decided Tokyo Brain's business model: free software + paid memory. This is our North Star strategy." → salience: 0.75
Selama recall, memori dengan salience > 0,5 mendapat distance boost hingga 30%. Pertama kali anak Anda bersepeda akan selalu melampaui perubahan konfigurasi server.
Penilaian menggunakan heuristik berbasis pola (penyebutan keluarga, tonggak pencapaian, keputusan strategis) — tidak perlu LLM, zero latency pada setiap operasi penyimpanan.
Korteks Kriptografis
Setiap modifikasi memori ditandatangani secara kriptografis dan dicatat. Ini menciptakan jejak audit anti-pemalsuan yang tidak seorang pun — termasuk kami — dapat ubah setelahnya.
- SHA-256 Hash — setiap memori mendapat sidik jari konten unik saat ditulis
- Tanda Tangan Digital — setiap mutasi ditandatangani dengan kunci wallet yang kompatibel dengan Ethereum
- Rantai Bukti — riwayat mutasi lengkap: siapa mengubah apa, kapan, dan mengapa
- Verifikasi — siapa pun dapat memverifikasi integritas memori melalui endpoint
/verify
Ini berarti: jika agen AI membuat keputusan berdasarkan memori enam bulan lalu, Anda dapat membuktikan bahwa memori tersebut belum dimanipulasi sejak saat itu. Siap untuk audit perusahaan.
Segitiga Keamanan
Tiga mekanisme keamanan yang di-hardcode dan tidak dapat di-override oleh skor kepercayaan apa pun:
Memori Multimodal
Tokyo Brain tidak hanya menyimpan teks. Ia menerima payload sensorik terpadu — teks, fitur audio, dan konteks visual dalam satu memori:
{
"sensory_inputs": {
"text_transcript": "I'm fine, I'll handle it.",
"audio_features": { "speaker_id": "Chia", "tone": "exhausted" },
"visual_features": { "scene_context": "messy_living_room", "facial_expression": "fatigued" }
}
}
Sistem menyintesis narasi multimodal untuk embedding: [Speaker: Chia] [Tone: exhausted] [Visual: messy_living_room] Spoken: "I'm fine" — memungkinkan recall berdasarkan emosi, adegan, atau pembicara, bukan hanya kata kunci.
Ekosistem Framework
Adapter drop-in untuk empat framework agen AI utama. Hanya dua baris yang perlu ditukar:
# LangChain from tokyo_brain.langchain import TokyoBrainMemory # CrewAI from tokyo_brain.crewai import TokyoBrainCrewMemory # AutoGen from tokyo_brain.autogen import TokyoBrainAutoGenMemory # LlamaIndex from tokyo_brain.llamaindex import TokyoBrainRetriever
Kode agen Anda yang sudah ada tetap persis sama. Anda hanya menukar backend memori.
Yang Tidak Kami Lakukan (Dan Mengapa Itu Penting)
- Tidak ada pendekatan «simpan segalanya». Sanitizer bawaan menyaring konten sinyal rendah sebelum penyimpanan. Kami percaya penyaringan agresif menghasilkan recall lebih baik daripada menimbun segalanya.
- Tidak ada vendor lock-in. BYOK (Bring Your Own Key) — gunakan penyedia LLM Anda sendiri. Kami hanya mengenakan biaya untuk infrastruktur memori, tidak pernah untuk compute.
- Enkripsi secara default. Enkripsi AES-256-GCM at rest. Isolasi key per-tenant. Ini adalah persyaratan desain sejak hari pertama.
- Tidak ada bias hanya bahasa Inggris. BGE-m3 embeddings + dukungan 50+ bahasa. Query dalam bahasa Mandarin, ambil memori yang disimpan dalam bahasa Inggris.
Kekurangan yang Jujur
Kami percaya pada rekayasa yang transparan, jadi inilah yang belum dimiliki Tokyo Brain:
- Tidak ada memori multimodal — hanya teks. Gambar, audio, dan video ada dalam roadmap.
- Tidak ada berbagi pengetahuan lintas pengguna — setiap tenant sepenuhnya terisolasi. Federasi sudah direncanakan.
- Deteksi emosional terbatas — berbasis pola, bukan berbasis LLM. Bekerja baik untuk pola yang dikenal, melewatkan konteks emosional baru.
- Basis pengguna kecil — kami dalam tahap alpha. Sistem bekerja, benchmark membuktikannya, tapi kami butuh lebih banyak validasi dunia nyata.
- Latensi recall — ~5 detik di bawah beban konkuren (embedding terikat CPU pada satu instance EC2, tanpa GPU). Kami mengoptimalkan kedalaman pemrosesan daripada kecepatan mentah.
Ringkasan Arsitektur
Store Path:
Input → Sanitizer → Emotional Salience → Fact Extraction
→ BGE-m3 Embedding → ChromaDB → Entropy Monitor
Recall Path:
Query → Expansion → Entity Link → Temporal Parse
→ Multi-Collection Search → Curated Boost → Time Decay
→ Emotional Boost → Temporal Filter → Re-rank → Dedup
Background:
3:00 AM — Night Cycle v2 (scan for issues)
3:10 AM — MRA Engine (three-persona debate + auto-resolve)
Real-time — Entropy Monitor (knowledge stability tracking)
Coba Sekarang
pip install tokyo-brain
from tokyo_brain import TokyoBrain
brain = TokyoBrain(api_key="your-key")
# Store a memory
brain.store("Oscar rode his bike for the first time today")
# Recall with full 10-layer pipeline
results = brain.recall("What happened with Oscar recently?")
# → Returns Oscar's bike ride (salience: 0.85), not your server logs
Tiga baris untuk memberikan AI Anda sebuah hippocampus, amygdala, dan alam bawah sadar.
Sudah menggunakan LangChain? Tukar dua baris:
# Before (goldfish memory): from langchain.memory import ConversationBufferMemory memory = ConversationBufferMemory() # After (10-layer brain with subconscious): from tokyo_brain.langchain import TokyoBrainMemory memory = TokyoBrainMemory(api_key="tb-...") # That's it. Your chain code stays exactly the same.
Juga berfungsi sebagai Retriever untuk RAG chains dan sebagai ChatMessageHistory untuk persistent sessions.
API Docs: api.tokyobrain.ai | PyPI: tokyo-brain 0.1.0