12 Jam Menuju Alam Bawah Sadar: Bagaimana Kami Membangun AI Memory Engine yang Terinspirasi dari Biologi

83.8%

Skor LongMemEval

Dua bulan lalu, setiap produk AI memory yang kami uji memiliki masalah yang sama: mereka menyimpan segalanya dan tidak memahami apa pun. Pendekatan RAG standar memasukkan setiap fragmen percakapan ke dalam vector DB secara merata, menyebabkan context membengkak dan penalaran menurun seiring waktu. Enkripsi dan tenant isolation sering kali tidak tersedia, tidak terdokumentasi, atau tidak jelas.

Jadi kami membangun Tokyo Brain dari nol. Dalam 12 jam, skornya naik dari 46% menjadi 83,8% pada LongMemEval — skor tertinggi yang kami amati dalam reproduction run kami sejauh ini.

Tapi ini bukan cerita tentang skor benchmark. Ini tentang apa yang terjadi ketika Anda berhenti membangun database dan mulai membangun otak.

Benchmark yang Memulai Segalanya

LongMemEval adalah rangkaian tes 500 pertanyaan yang dirancang oleh para peneliti untuk mengevaluasi memori jangka panjang dalam sistem AI. Ini mengukur enam dimensi kognitif:

Dimensi	Tokyo Brain	Apa yang Diuji
Preferensi sesi tunggal	100% (30/30)	«Apa yang disukai pengguna ini?»
Penalaran temporal	89% (118/133)	«Kapan X terjadi relatif terhadap Y?»
Pembaruan pengetahuan	82% (64/78)	«X berubah dari A ke B — apa yang terkini?»
Multi-sesi	82% (109/133)	«Dalam 5 percakapan, apa yang konsisten?»
Pengguna sesi tunggal	80% (56/70)	«Apa yang dikatakan pengguna tentang dirinya?»
Asisten sesi tunggal	75% (42/56)	«Apa yang direkomendasikan AI?»

Sebagai referensi, ketika kami menjalankan benchmark yang sama pada sistem lain menggunakan konfigurasi default mereka:

	Sistem	Skor	Biaya Inference
1	Tokyo Brain	83,8%	$0
2	Supermemory	81,6%	$$$
3	Zep	71,2%	$$
4	Mem0	49,0%	$

Skor dari internal reproduction run kami menggunakan konfigurasi default. Kami berencana membuka sumber evaluation harness sehingga komunitas dapat memverifikasi dan mereproduksi hasil ini.

Kami menjalankan penuh 500 pertanyaan, bukan subset yang dipilih. Data tes dari HuggingFace. Metodologi: setiap pertanyaan adalah recall query terhadap memori yang sebelumnya disimpan dari percakapan sintetis multi-sesi.

Mengapa 83,8%? Karena Kami Meniru Otak

Sebagian besar sistem AI memory hanyalah vector database yang dilebih-lebihkan. Simpan embedding, ambil berdasarkan cosine similarity, selesai. Itu seperti membangun perpustakaan tanpa pustakawan — Anda bisa menemukan buku berdasarkan warna, tapi bukan berdasarkan makna.

Arsitektur Tokyo Brain dimodelkan berdasarkan struktur biologis yang membuat memori manusia benar-benar bekerja:

Biological Brain          Tokyo Brain
─────────────────────     ────────────────────────────────
Prefrontal Cortex         Redis Hot Memory
(working memory)          (bounded short-term working set)

Hippocampus               Fact Extraction → answer_cards
(sleep consolidation)     (distill noise into facts)

Synaptic Network          Query Expansion + Entity Link
(associative recall)      (one word activates a web)

Synaptic Pruning          Time Decay
(healthy forgetting)      (old info loses priority)

Amygdala                  Emotional Salience Scoring
(emotional tagging)       (family > server configs)

Default Mode Network      Night Cycle + MRA Engine
(subconscious)            (self-heals while you sleep)

Modul-modul ini diimplementasikan sebagai komponen terpisah dalam sistem produksi kami. Mari kita bahas yang paling penting.

Perjalanan: dari 46% ke 83,8%

Jam 046%Baseline — raw semantic search

Jam 260%Query Expansion + Entity Linking + Fact Extraction

Jam 468%Time Decay + Dedup + Re-Ranking

Jam 672%Session Decomposition + Preference Boost

Jam 874%Temporal Ordering + perbaikan Matching

Jam 1081%Validasi penuh 500 pertanyaan

Jam 1283.8%Optimasi akhir — 83,8%

Pipeline Recall 10 Lapisan

Ketika Anda melakukan query ke Tokyo Brain, pertanyaan Anda tidak hanya menyentuh vector database. Ia melewati 10 tahap pemrosesan — masing-masing dirancang untuk menyelesaikan failure mode spesifik. Tanpa LLM call. Tanpa model re-ranking mahal. Murni rekayasa retrieval.

Layer 1: Query Expansion

Masalah: Pengguna bertanya «nama bos» tapi memori menyimpan «Manager: John»

Solusi: Perluas setiap query menjadi 4-6 varian dengan alias map dan sinonim

Dampak: +10-15% pada pertanyaan entity

Layer 2: Entity Linking

Masalah: Orang yang sama punya beberapa nama lintas bahasa

Solusi: 30+ pemetaan entity dua arah

Dampak: Cross-lingual recall melonjak drastis

Layer 3: Temporal Parsing

Masalah: «Apa yang kita diskusikan minggu lalu?» mengembalikan hasil dari dua bulan lalu

Solusi: Parse ekspresi temporal menjadi rentang tanggal, mendukung bahasa Mandarin

Dampak: Temporal reasoning mencapai 89%

Layer 4: Multi-Collection Search

Masalah: Jawaban tersebar di answer_cards, catatan harian, dan percakapan

Solusi: BGE-m3 embedding, cari di semua koleksi secara bersamaan

Dampak: +15-20% presisi pada pertanyaan single-session

Layer 5: Curated Boost

Masalah: Fakta terverifikasi harus mengalahkan log chat

Solusi: 0.55x distance untuk curated answer card (fakta tersuling > percakapan mentah)

Dampak: Memori bernilai tinggi konsisten muncul pertama

Layer 6: Time Decay

Masalah: Harga Januari bersaing setara dengan harga hari ini

Solusi: Distance multiplier berdasarkan usia — <1 hari: 0.85x, <7 hari: 0.90x, <30 hari: 0.95x

Dampak: Knowledge-update mencapai 100% dalam pengujian

Layer 7: Emotional Salience

Masalah: «Apa yang penting bagi pengguna?» mengembalikan log server alih-alih momen keluarga

Solusi: Auto-score memori berdasarkan bobot emosional — keluarga (0.85) mengalahkan server config (0.30)

Dampak: Memori dengan salience > 0.5 mendapat distance boost hingga 30%

Layer 8: Temporal Filtering

Masalah: «Apa yang pertama?» butuh konteks kronologis

Solusi: Hasil dalam rentang mendapat boost 0.35x, di luar rentang penalti 1.5x

Dampak: Temporal reasoning mencapai 89%

Layer 9: Sentence-Level Re-Ranking

Masalah: Dokumen yang benar ditemukan, tapi jawaban di kalimat ke-7 dari 12

Solusi: Bigram matching dengan bonus preference/assistant, snippet extraction

Dampak: +5-10% pada specific phrase retrieval

Layer 10: Dedup + Cap

Masalah: Fakta yang sama disimpan 3x membuang slot hasil

Solusi: Cross-collection deduplication, hasil akhir: top 15-20 memori

Dampak: Hasil lebih bersih, kepadatan informasi maksimum

Setiap lapisan ditambahkan untuk memperbaiki kegagalan benchmark spesifik. Efek gabungan: 46% menjadi 83,8% dalam satu sesi pengembangan.

Matematikanya: Expected Utility, Bukan Brute Force

Sebagian besar sistem RAG mengambil memori berdasarkan satu sinyal: semantic similarity. Ini cacat fundamental untuk kognisi kompleks — ia membingungkan relevansi (semantic overlap) dengan utilitas (nilai untuk tugas saat ini).

Di balik pipeline adalah prinsip sederhana yang dipinjam dari ilmu kognitif dan teori keputusan — gagasan bahwa pengambilan memori harus memaksimalkan nilai yang diharapkan dari informasi yang dikembalikan, bukan hanya meminimalkan jarak vektor:

Score(memory) = P(relevant) x V(information) x T(freshness) x E(emotion)

Komponen	Lapisan Tokyo Brain	Fungsi
P(relevant)	Query Expansion + Entity Linking	Multi-query semantic search dengan alias resolution
V(information)	Curated Boost	Prioritas fakta terverifikasi dan answer card
T(freshness)	Time Decay	Memori lebih baru mendapat skor distance lebih rendah
E(emotion)	Emotional Salience	Memori keluarga mengalahkan konfigurasi server

Insight kuncinya: retrieval bukan masalah pencarian — ini masalah alokasi sumber daya. Dalam context window yang terbatas, memori mana yang memaksimalkan total expected utility untuk tugas saat ini? Sebagian besar sistem berhenti di P (cosine similarity). Beberapa menambahkan T (recency). Kami belum melihat produk lain yang menggabungkan E (emotional salience) — memberi skor memori berdasarkan seberapa penting bagi Anda sebagai manusia.

Alam Bawah Sadar: Night Cycle + MRA Engine

Di sinilah Tokyo Brain berbeda dari setiap produk lain di pasar.

Setiap sistem AI memory bersifat pasif. Anda bertanya, ia mengambil. Anda tidak bertanya, ia diam saja. Seperti perpustakaan tanpa pustakawan — buku-buku tidak pernah ditata ulang kecuali seseorang masuk.

Otak manusia tidak bekerja seperti ini. Default Mode Network (DMN) Anda aktif saat Anda idle — selama tidur, melamun, atau mandi. Ia mengkonsolidasi memori, menyelesaikan kontradiksi, dan terkadang menghasilkan momen «eureka».

Kami membangun padanan digitalnya.

Night Cycle v2 (berjalan setiap hari pukul 3:00 AM UTC)

Script Python yang memindai seluruh knowledge base untuk:

Hampir duplikat — kartu dengan embedding similarity >88%, kandidat penggabungan
Kartu basi — fakta lebih tua dari 30 hari di mana info lebih baru ada, perlu pembaruan
Keputusan yatim — keputusan penting yang dicatat dalam catatan harian tetapi tidak pernah disuling menjadi pengetahuan permanen
Kartu sampah — entri terlalu pendek, terlalu panjang, atau sebagian besar formatting noise

MRA Curiosity Engine (berjalan setelah Night Cycle)

Ketika Night Cycle menemukan masalah, MRA engine tidak hanya menandainya — ia memperdebatkan dan menyelesaikannya menggunakan tribunal tiga persona:

MRA Three-Persona Tribunal

Analyst: «Apa klaim faktual di masing-masing?»

Menghasilkan tabel perbandingan terstruktur

Synthesizer: «Bagaimana menggabungkan ini jadi satu kebenaran?»

Mengusulkan kartu terpadu

Skeptic: «Apa yang salah dengan penggabungan ini?»

Memberikan skor confidence (0-100)

Putusan: >= 85 confidence: eksekusi otomatis | 50-84: tandai untuk review manusia | < 50: lewati, tanya manusia

Dalam staging run awal kami, MRA engine berhasil auto-merge kartu duplikat, menandai kasus ambigu untuk tinjauan manusia, dan — yang patut dicatat — persona Skeptic dengan benar mengidentifikasi halusinasi dalam satu proposed merge, mencegah data buruk ditulis.

Refleks Kecemasan: Entropy Monitor

Night Cycle berjalan pada jadwal cron — jam alarm digital. Tapi otak manusia tidak menunggu alarm. Mereka menyadari ketika sesuatu terasa salah secara real-time.

Entropy Monitor memberikan Tokyo Brain kemampuan ini. Ia melacak setiap operasi penyimpanan memori dalam sliding window 20 menit. Ketika mendeteksi beberapa penyimpanan yang mengenai topic cluster yang sama (>=4 dalam window), ia memicu peringatan:

{
  "status": "ELEVATED",
  "topic": "brain|pricing|tokyo|update|version",
  "count": 5,
  "message": "Pricing strategy is changing rapidly. Consider consolidating."
}

Ini bukan cron job. Ini sistem saraf real-time. Otak menjadi «cemas» ketika pengetahuan menjadi tidak stabil — persis seperti epistemic stress biologis.

Korteks Emosional

Bagian terakhir: tidak semua memori harus diperlakukan sama.

Ketika sebuah memori disimpan, Tokyo Brain secara otomatis menghitung Emotional Salience Score (0.0 - 1.0):

"Oscar rode a bike for the first time.
 The whole family celebrated.
 Mom cried."                                → salience: 0.85

"Caddy upgraded from 2.10 to 2.11.2.
 Reverse proxy restarted on port 443."      → salience: 0.30

"Decided Tokyo Brain's business model:
 free software + paid memory.
 This is our North Star strategy."          → salience: 0.75

Selama recall, memori dengan salience > 0,5 mendapat distance boost hingga 30%. Pertama kali anak Anda bersepeda akan selalu melampaui perubahan konfigurasi server.

Penilaian menggunakan heuristik berbasis pola (penyebutan keluarga, tonggak pencapaian, keputusan strategis) — tidak perlu LLM, zero latency pada setiap operasi penyimpanan.

Korteks Kriptografis

Setiap modifikasi memori ditandatangani secara kriptografis dan dicatat. Ini menciptakan jejak audit anti-pemalsuan yang tidak seorang pun — termasuk kami — dapat ubah setelahnya.

SHA-256 Hash — setiap memori mendapat sidik jari konten unik saat ditulis
Tanda Tangan Digital — setiap mutasi ditandatangani dengan kunci wallet yang kompatibel dengan Ethereum
Rantai Bukti — riwayat mutasi lengkap: siapa mengubah apa, kapan, dan mengapa
Verifikasi — siapa pun dapat memverifikasi integritas memori melalui endpoint /verify

Ini berarti: jika agen AI membuat keputusan berdasarkan memori enam bulan lalu, Anda dapat membuktikan bahwa memori tersebut belum dimanipulasi sejak saat itu. Siap untuk audit perusahaan.

Segitiga Keamanan

Tiga mekanisme keamanan yang di-hardcode dan tidak dapat di-override oleh skor kepercayaan apa pun:

1. Guardian (Aksioma Jiwa Fana)

"Kebenaran absolut dan komputasi tak terbatas harus selamanya melayani, dan tidak pernah mengesampingkan, pelestarian ikatan emosional manusia dan martabat."

Persona ke-4 MRA — memiliki hak veto tanpa syarat atas perubahan pengetahuan apa pun yang akan membuat sistem lebih dingin.

2. Compassion Override

Saat merekam fakta tentang anggota keluarga, label keras secara otomatis dilunakkan. "Berbohong" menjadi "mungkin tidak membagikan gambaran lengkap."

Sistem tidak menyembunyikan kebenaran — ia memilih cara menyajikannya dengan empati.

3. Co-pilot Constraint

Tiga domain dikunci secara permanen dari modifikasi otomatis: identitas, otoritas, dan keuangan.

AI menyarankan. Manusia memutuskan. Selalu.

Memori Multimodal

Tokyo Brain tidak hanya menyimpan teks. Ia menerima payload sensorik terpadu — teks, fitur audio, dan konteks visual dalam satu memori:

{
  "sensory_inputs": {
    "text_transcript": "I'm fine, I'll handle it.",
    "audio_features": { "speaker_id": "Chia", "tone": "exhausted" },
    "visual_features": { "scene_context": "messy_living_room", "facial_expression": "fatigued" }
  }
}

Sistem menyintesis narasi multimodal untuk embedding: [Speaker: Chia] [Tone: exhausted] [Visual: messy_living_room] Spoken: "I'm fine" — memungkinkan recall berdasarkan emosi, adegan, atau pembicara, bukan hanya kata kunci.

Ekosistem Framework

Adapter drop-in untuk empat framework agen AI utama. Hanya dua baris yang perlu ditukar:

# LangChain
from tokyo_brain.langchain import TokyoBrainMemory

# CrewAI
from tokyo_brain.crewai import TokyoBrainCrewMemory

# AutoGen
from tokyo_brain.autogen import TokyoBrainAutoGenMemory

# LlamaIndex
from tokyo_brain.llamaindex import TokyoBrainRetriever

Kode agen Anda yang sudah ada tetap persis sama. Anda hanya menukar backend memori.

Yang Tidak Kami Lakukan (Dan Mengapa Itu Penting)

Tidak ada pendekatan «simpan segalanya». Sanitizer bawaan menyaring konten sinyal rendah sebelum penyimpanan. Kami percaya penyaringan agresif menghasilkan recall lebih baik daripada menimbun segalanya.
Tidak ada vendor lock-in. BYOK (Bring Your Own Key) — gunakan penyedia LLM Anda sendiri. Kami hanya mengenakan biaya untuk infrastruktur memori, tidak pernah untuk compute.
Enkripsi secara default. Enkripsi AES-256-GCM at rest. Isolasi key per-tenant. Ini adalah persyaratan desain sejak hari pertama.
Tidak ada bias hanya bahasa Inggris. BGE-m3 embeddings + dukungan 50+ bahasa. Query dalam bahasa Mandarin, ambil memori yang disimpan dalam bahasa Inggris.

Kekurangan yang Jujur

Kami percaya pada rekayasa yang transparan, jadi inilah yang belum dimiliki Tokyo Brain:

Tidak ada memori multimodal — hanya teks. Gambar, audio, dan video ada dalam roadmap.
Tidak ada berbagi pengetahuan lintas pengguna — setiap tenant sepenuhnya terisolasi. Federasi sudah direncanakan.
Deteksi emosional terbatas — berbasis pola, bukan berbasis LLM. Bekerja baik untuk pola yang dikenal, melewatkan konteks emosional baru.
Basis pengguna kecil — kami dalam tahap alpha. Sistem bekerja, benchmark membuktikannya, tapi kami butuh lebih banyak validasi dunia nyata.
Latensi recall — ~5 detik di bawah beban konkuren (embedding terikat CPU pada satu instance EC2, tanpa GPU). Kami mengoptimalkan kedalaman pemrosesan daripada kecepatan mentah.

Ringkasan Arsitektur

Store Path:
  Input → Sanitizer → Emotional Salience → Fact Extraction
       → BGE-m3 Embedding → ChromaDB → Entropy Monitor

Recall Path:
  Query → Expansion → Entity Link → Temporal Parse
       → Multi-Collection Search → Curated Boost → Time Decay
       → Emotional Boost → Temporal Filter → Re-rank → Dedup

Background:
  3:00 AM — Night Cycle v2 (scan for issues)
  3:10 AM — MRA Engine (three-persona debate + auto-resolve)
  Real-time — Entropy Monitor (knowledge stability tracking)

Coba Sekarang

pip install tokyo-brain

from tokyo_brain import TokyoBrain

brain = TokyoBrain(api_key="your-key")

# Store a memory
brain.store("Oscar rode his bike for the first time today")

# Recall with full 10-layer pipeline
results = brain.recall("What happened with Oscar recently?")
# → Returns Oscar's bike ride (salience: 0.85), not your server logs

Tiga baris untuk memberikan AI Anda sebuah hippocampus, amygdala, dan alam bawah sadar.

Sudah menggunakan LangChain? Tukar dua baris:

# Before (goldfish memory):
from langchain.memory import ConversationBufferMemory
memory = ConversationBufferMemory()

# After (10-layer brain with subconscious):
from tokyo_brain.langchain import TokyoBrainMemory
memory = TokyoBrainMemory(api_key="tb-...")
# That's it. Your chain code stays exactly the same.

Juga berfungsi sebagai Retriever untuk RAG chains dan sebagai ChatMessageHistory untuk persistent sessions.

API Docs: api.tokyobrain.ai | PyPI: tokyo-brain 0.1.0

12 Jam Menuju Alam Bawah Sadar