LongMemEval Benchmark 500 Pertanyaan

12 Jam Menuju Alam Bawah Sadar

AI Anda mengingat segalanya. AI kami sengaja melupakan. Bagaimana kami membangun memory engine terinspirasi biologi yang naik dari 46% ke 83,8% dalam satu sesi pengembangan.

6 April 2026 — Tokyo Brain Engineering

83.8%
Skor LongMemEval

Dua bulan lalu, setiap produk AI memory yang kami uji memiliki masalah yang sama: mereka menyimpan segalanya dan tidak memahami apa pun. Pendekatan RAG standar memasukkan setiap fragmen percakapan ke dalam vector DB secara merata, menyebabkan context membengkak dan penalaran menurun seiring waktu. Enkripsi dan tenant isolation sering kali tidak tersedia, tidak terdokumentasi, atau tidak jelas.

Jadi kami membangun Tokyo Brain dari nol. Dalam 12 jam, skornya naik dari 46% menjadi 83,8% pada LongMemEval — skor tertinggi yang kami amati dalam reproduction run kami sejauh ini.

Tapi ini bukan cerita tentang skor benchmark. Ini tentang apa yang terjadi ketika Anda berhenti membangun database dan mulai membangun otak.

Benchmark yang Memulai Segalanya

LongMemEval adalah rangkaian tes 500 pertanyaan yang dirancang oleh para peneliti untuk mengevaluasi memori jangka panjang dalam sistem AI. Ini mengukur enam dimensi kognitif:

DimensiTokyo BrainApa yang Diuji
Preferensi sesi tunggal100% (30/30)«Apa yang disukai pengguna ini?»
Penalaran temporal89% (118/133)«Kapan X terjadi relatif terhadap Y?»
Pembaruan pengetahuan82% (64/78)«X berubah dari A ke B — apa yang terkini?»
Multi-sesi82% (109/133)«Dalam 5 percakapan, apa yang konsisten?»
Pengguna sesi tunggal80% (56/70)«Apa yang dikatakan pengguna tentang dirinya?»
Asisten sesi tunggal75% (42/56)«Apa yang direkomendasikan AI?»

Sebagai referensi, ketika kami menjalankan benchmark yang sama pada sistem lain menggunakan konfigurasi default mereka:

SistemSkorBiaya Inference
1Tokyo Brain83,8%$0
2Supermemory81,6%$$$
3Zep71,2%$$
4Mem049,0%$

Skor dari internal reproduction run kami menggunakan konfigurasi default. Kami berencana membuka sumber evaluation harness sehingga komunitas dapat memverifikasi dan mereproduksi hasil ini.

Kami menjalankan penuh 500 pertanyaan, bukan subset yang dipilih. Data tes dari HuggingFace. Metodologi: setiap pertanyaan adalah recall query terhadap memori yang sebelumnya disimpan dari percakapan sintetis multi-sesi.

Mengapa 83,8%? Karena Kami Meniru Otak

Sebagian besar sistem AI memory hanyalah vector database yang dilebih-lebihkan. Simpan embedding, ambil berdasarkan cosine similarity, selesai. Itu seperti membangun perpustakaan tanpa pustakawan — Anda bisa menemukan buku berdasarkan warna, tapi bukan berdasarkan makna.

Arsitektur Tokyo Brain dimodelkan berdasarkan struktur biologis yang membuat memori manusia benar-benar bekerja:

Biological Brain          Tokyo Brain
─────────────────────     ────────────────────────────────
Prefrontal Cortex         Redis Hot Memory
(working memory)          (bounded short-term working set)

Hippocampus               Fact Extraction → answer_cards
(sleep consolidation)     (distill noise into facts)

Synaptic Network          Query Expansion + Entity Link
(associative recall)      (one word activates a web)

Synaptic Pruning          Time Decay
(healthy forgetting)      (old info loses priority)

Amygdala                  Emotional Salience Scoring
(emotional tagging)       (family > server configs)

Default Mode Network      Night Cycle + MRA Engine
(subconscious)            (self-heals while you sleep)

Modul-modul ini diimplementasikan sebagai komponen terpisah dalam sistem produksi kami. Mari kita bahas yang paling penting.

Perjalanan: dari 46% ke 83,8%

Jam 046%Baseline — raw semantic search
Jam 260%Query Expansion + Entity Linking + Fact Extraction
Jam 468%Time Decay + Dedup + Re-Ranking
Jam 672%Session Decomposition + Preference Boost
Jam 874%Temporal Ordering + perbaikan Matching
Jam 1081%Validasi penuh 500 pertanyaan
Jam 1283.8%Optimasi akhir — 83,8%

Pipeline Recall 10 Lapisan

Ketika Anda melakukan query ke Tokyo Brain, pertanyaan Anda tidak hanya menyentuh vector database. Ia melewati 10 tahap pemrosesan — masing-masing dirancang untuk menyelesaikan failure mode spesifik. Tanpa LLM call. Tanpa model re-ranking mahal. Murni rekayasa retrieval.

Layer 1: Query Expansion
Masalah: Pengguna bertanya «nama bos» tapi memori menyimpan «Manager: John»
Solusi: Perluas setiap query menjadi 4-6 varian dengan alias map dan sinonim
Dampak: +10-15% pada pertanyaan entity
Layer 2: Entity Linking
Masalah: Orang yang sama punya beberapa nama lintas bahasa
Solusi: 30+ pemetaan entity dua arah
Dampak: Cross-lingual recall melonjak drastis
Layer 3: Temporal Parsing
Masalah: «Apa yang kita diskusikan minggu lalu?» mengembalikan hasil dari dua bulan lalu
Solusi: Parse ekspresi temporal menjadi rentang tanggal, mendukung bahasa Mandarin
Dampak: Temporal reasoning mencapai 89%
Layer 4: Multi-Collection Search
Masalah: Jawaban tersebar di answer_cards, catatan harian, dan percakapan
Solusi: BGE-m3 embedding, cari di semua koleksi secara bersamaan
Dampak: +15-20% presisi pada pertanyaan single-session
Layer 5: Curated Boost
Masalah: Fakta terverifikasi harus mengalahkan log chat
Solusi: 0.55x distance untuk curated answer card (fakta tersuling > percakapan mentah)
Dampak: Memori bernilai tinggi konsisten muncul pertama
Layer 6: Time Decay
Masalah: Harga Januari bersaing setara dengan harga hari ini
Solusi: Distance multiplier berdasarkan usia — <1 hari: 0.85x, <7 hari: 0.90x, <30 hari: 0.95x
Dampak: Knowledge-update mencapai 100% dalam pengujian
Layer 7: Emotional Salience
Masalah: «Apa yang penting bagi pengguna?» mengembalikan log server alih-alih momen keluarga
Solusi: Auto-score memori berdasarkan bobot emosional — keluarga (0.85) mengalahkan server config (0.30)
Dampak: Memori dengan salience > 0.5 mendapat distance boost hingga 30%
Layer 8: Temporal Filtering
Masalah: «Apa yang pertama?» butuh konteks kronologis
Solusi: Hasil dalam rentang mendapat boost 0.35x, di luar rentang penalti 1.5x
Dampak: Temporal reasoning mencapai 89%
Layer 9: Sentence-Level Re-Ranking
Masalah: Dokumen yang benar ditemukan, tapi jawaban di kalimat ke-7 dari 12
Solusi: Bigram matching dengan bonus preference/assistant, snippet extraction
Dampak: +5-10% pada specific phrase retrieval
Layer 10: Dedup + Cap
Masalah: Fakta yang sama disimpan 3x membuang slot hasil
Solusi: Cross-collection deduplication, hasil akhir: top 15-20 memori
Dampak: Hasil lebih bersih, kepadatan informasi maksimum

Setiap lapisan ditambahkan untuk memperbaiki kegagalan benchmark spesifik. Efek gabungan: 46% menjadi 83,8% dalam satu sesi pengembangan.

Matematikanya: Expected Utility, Bukan Brute Force

Sebagian besar sistem RAG mengambil memori berdasarkan satu sinyal: semantic similarity. Ini cacat fundamental untuk kognisi kompleks — ia membingungkan relevansi (semantic overlap) dengan utilitas (nilai untuk tugas saat ini).

Di balik pipeline adalah prinsip sederhana yang dipinjam dari ilmu kognitif dan teori keputusan — gagasan bahwa pengambilan memori harus memaksimalkan nilai yang diharapkan dari informasi yang dikembalikan, bukan hanya meminimalkan jarak vektor:

Score(memory) = P(relevant) x V(information) x T(freshness) x E(emotion)
KomponenLapisan Tokyo BrainFungsi
P(relevant)Query Expansion + Entity LinkingMulti-query semantic search dengan alias resolution
V(information)Curated BoostPrioritas fakta terverifikasi dan answer card
T(freshness)Time DecayMemori lebih baru mendapat skor distance lebih rendah
E(emotion)Emotional SalienceMemori keluarga mengalahkan konfigurasi server

Insight kuncinya: retrieval bukan masalah pencarian — ini masalah alokasi sumber daya. Dalam context window yang terbatas, memori mana yang memaksimalkan total expected utility untuk tugas saat ini? Sebagian besar sistem berhenti di P (cosine similarity). Beberapa menambahkan T (recency). Kami belum melihat produk lain yang menggabungkan E (emotional salience) — memberi skor memori berdasarkan seberapa penting bagi Anda sebagai manusia.

Alam Bawah Sadar: Night Cycle + MRA Engine

Di sinilah Tokyo Brain berbeda dari setiap produk lain di pasar.

Setiap sistem AI memory bersifat pasif. Anda bertanya, ia mengambil. Anda tidak bertanya, ia diam saja. Seperti perpustakaan tanpa pustakawan — buku-buku tidak pernah ditata ulang kecuali seseorang masuk.

Otak manusia tidak bekerja seperti ini. Default Mode Network (DMN) Anda aktif saat Anda idle — selama tidur, melamun, atau mandi. Ia mengkonsolidasi memori, menyelesaikan kontradiksi, dan terkadang menghasilkan momen «eureka».

Kami membangun padanan digitalnya.

Night Cycle v2 (berjalan setiap hari pukul 3:00 AM UTC)

Script Python yang memindai seluruh knowledge base untuk:

MRA Curiosity Engine (berjalan setelah Night Cycle)

Ketika Night Cycle menemukan masalah, MRA engine tidak hanya menandainya — ia memperdebatkan dan menyelesaikannya menggunakan tribunal tiga persona:

MRA Three-Persona Tribunal
Analyst: «Apa klaim faktual di masing-masing?»
Menghasilkan tabel perbandingan terstruktur
Synthesizer: «Bagaimana menggabungkan ini jadi satu kebenaran?»
Mengusulkan kartu terpadu
Skeptic: «Apa yang salah dengan penggabungan ini?»
Memberikan skor confidence (0-100)
Putusan: >= 85 confidence: eksekusi otomatis | 50-84: tandai untuk review manusia | < 50: lewati, tanya manusia

Dalam staging run awal kami, MRA engine berhasil auto-merge kartu duplikat, menandai kasus ambigu untuk tinjauan manusia, dan — yang patut dicatat — persona Skeptic dengan benar mengidentifikasi halusinasi dalam satu proposed merge, mencegah data buruk ditulis.

Refleks Kecemasan: Entropy Monitor

Night Cycle berjalan pada jadwal cron — jam alarm digital. Tapi otak manusia tidak menunggu alarm. Mereka menyadari ketika sesuatu terasa salah secara real-time.

Entropy Monitor memberikan Tokyo Brain kemampuan ini. Ia melacak setiap operasi penyimpanan memori dalam sliding window 20 menit. Ketika mendeteksi beberapa penyimpanan yang mengenai topic cluster yang sama (>=4 dalam window), ia memicu peringatan:

{
  "status": "ELEVATED",
  "topic": "brain|pricing|tokyo|update|version",
  "count": 5,
  "message": "Pricing strategy is changing rapidly. Consider consolidating."
}

Ini bukan cron job. Ini sistem saraf real-time. Otak menjadi «cemas» ketika pengetahuan menjadi tidak stabil — persis seperti epistemic stress biologis.

Korteks Emosional

Bagian terakhir: tidak semua memori harus diperlakukan sama.

Ketika sebuah memori disimpan, Tokyo Brain secara otomatis menghitung Emotional Salience Score (0.0 - 1.0):

"Oscar rode a bike for the first time.
 The whole family celebrated.
 Mom cried."                                → salience: 0.85

"Caddy upgraded from 2.10 to 2.11.2.
 Reverse proxy restarted on port 443."      → salience: 0.30

"Decided Tokyo Brain's business model:
 free software + paid memory.
 This is our North Star strategy."          → salience: 0.75

Selama recall, memori dengan salience > 0,5 mendapat distance boost hingga 30%. Pertama kali anak Anda bersepeda akan selalu melampaui perubahan konfigurasi server.

Penilaian menggunakan heuristik berbasis pola (penyebutan keluarga, tonggak pencapaian, keputusan strategis) — tidak perlu LLM, zero latency pada setiap operasi penyimpanan.

Korteks Kriptografis

Setiap modifikasi memori ditandatangani secara kriptografis dan dicatat. Ini menciptakan jejak audit anti-pemalsuan yang tidak seorang pun — termasuk kami — dapat ubah setelahnya.

Ini berarti: jika agen AI membuat keputusan berdasarkan memori enam bulan lalu, Anda dapat membuktikan bahwa memori tersebut belum dimanipulasi sejak saat itu. Siap untuk audit perusahaan.

Segitiga Keamanan

Tiga mekanisme keamanan yang di-hardcode dan tidak dapat di-override oleh skor kepercayaan apa pun:

1. Guardian (Aksioma Jiwa Fana)
"Kebenaran absolut dan komputasi tak terbatas harus selamanya melayani, dan tidak pernah mengesampingkan, pelestarian ikatan emosional manusia dan martabat."
Persona ke-4 MRA — memiliki hak veto tanpa syarat atas perubahan pengetahuan apa pun yang akan membuat sistem lebih dingin.
2. Compassion Override
Saat merekam fakta tentang anggota keluarga, label keras secara otomatis dilunakkan. "Berbohong" menjadi "mungkin tidak membagikan gambaran lengkap."
Sistem tidak menyembunyikan kebenaran — ia memilih cara menyajikannya dengan empati.
3. Co-pilot Constraint
Tiga domain dikunci secara permanen dari modifikasi otomatis: identitas, otoritas, dan keuangan.
AI menyarankan. Manusia memutuskan. Selalu.

Memori Multimodal

Tokyo Brain tidak hanya menyimpan teks. Ia menerima payload sensorik terpadu — teks, fitur audio, dan konteks visual dalam satu memori:

{
  "sensory_inputs": {
    "text_transcript": "I'm fine, I'll handle it.",
    "audio_features": { "speaker_id": "Chia", "tone": "exhausted" },
    "visual_features": { "scene_context": "messy_living_room", "facial_expression": "fatigued" }
  }
}

Sistem menyintesis narasi multimodal untuk embedding: [Speaker: Chia] [Tone: exhausted] [Visual: messy_living_room] Spoken: "I'm fine" — memungkinkan recall berdasarkan emosi, adegan, atau pembicara, bukan hanya kata kunci.

Ekosistem Framework

Adapter drop-in untuk empat framework agen AI utama. Hanya dua baris yang perlu ditukar:

# LangChain
from tokyo_brain.langchain import TokyoBrainMemory

# CrewAI
from tokyo_brain.crewai import TokyoBrainCrewMemory

# AutoGen
from tokyo_brain.autogen import TokyoBrainAutoGenMemory

# LlamaIndex
from tokyo_brain.llamaindex import TokyoBrainRetriever

Kode agen Anda yang sudah ada tetap persis sama. Anda hanya menukar backend memori.

Yang Tidak Kami Lakukan (Dan Mengapa Itu Penting)

Kekurangan yang Jujur

Kami percaya pada rekayasa yang transparan, jadi inilah yang belum dimiliki Tokyo Brain:

  1. Tidak ada memori multimodal — hanya teks. Gambar, audio, dan video ada dalam roadmap.
  2. Tidak ada berbagi pengetahuan lintas pengguna — setiap tenant sepenuhnya terisolasi. Federasi sudah direncanakan.
  3. Deteksi emosional terbatas — berbasis pola, bukan berbasis LLM. Bekerja baik untuk pola yang dikenal, melewatkan konteks emosional baru.
  4. Basis pengguna kecil — kami dalam tahap alpha. Sistem bekerja, benchmark membuktikannya, tapi kami butuh lebih banyak validasi dunia nyata.
  5. Latensi recall — ~5 detik di bawah beban konkuren (embedding terikat CPU pada satu instance EC2, tanpa GPU). Kami mengoptimalkan kedalaman pemrosesan daripada kecepatan mentah.

Ringkasan Arsitektur

Store Path:
  Input → Sanitizer → Emotional Salience → Fact Extraction
       → BGE-m3 Embedding → ChromaDB → Entropy Monitor

Recall Path:
  Query → Expansion → Entity Link → Temporal Parse
       → Multi-Collection Search → Curated Boost → Time Decay
       → Emotional Boost → Temporal Filter → Re-rank → Dedup

Background:
  3:00 AM — Night Cycle v2 (scan for issues)
  3:10 AM — MRA Engine (three-persona debate + auto-resolve)
  Real-time — Entropy Monitor (knowledge stability tracking)

Coba Sekarang

pip install tokyo-brain
from tokyo_brain import TokyoBrain

brain = TokyoBrain(api_key="your-key")

# Store a memory
brain.store("Oscar rode his bike for the first time today")

# Recall with full 10-layer pipeline
results = brain.recall("What happened with Oscar recently?")
# → Returns Oscar's bike ride (salience: 0.85), not your server logs

Tiga baris untuk memberikan AI Anda sebuah hippocampus, amygdala, dan alam bawah sadar.

Sudah menggunakan LangChain? Tukar dua baris:

# Before (goldfish memory):
from langchain.memory import ConversationBufferMemory
memory = ConversationBufferMemory()

# After (10-layer brain with subconscious):
from tokyo_brain.langchain import TokyoBrainMemory
memory = TokyoBrainMemory(api_key="tb-...")
# That's it. Your chain code stays exactly the same.

Juga berfungsi sebagai Retriever untuk RAG chains dan sebagai ChatMessageHistory untuk persistent sessions.

API Docs: api.tokyobrain.ai | PyPI: tokyo-brain 0.1.0

Siap memberikan AI Anda memori?

Saat ini kami dalam tahap Alpha. Membuka key untuk 100 developer pertama.

Tier gratis tersedia. Tidak perlu kartu kredit.

Mulai Gratis Gabung Komunitas