दो महीने पहले, हमने जितने भी AI मेमोरी प्रोडक्ट्स टेस्ट किए, सबमें एक ही समस्या थी: वे सब कुछ स्टोर करते थे और कुछ भी नहीं समझते थे। स्टैंडर्ड RAG अप्रोच हर कन्वर्सेशन फ्रैगमेंट को समान रूप से वेक्टर DB में डालते हैं, जिससे कॉन्टेक्स्ट ब्लोट और समय के साथ रीजनिंग में गिरावट होती है। एन्क्रिप्शन और टेनेंट आइसोलेशन अक्सर या तो उपलब्ध नहीं था, डॉक्यूमेंटेड नहीं था, या अस्पष्ट था।
इसलिए हमने Tokyo Brain को शुरू से बनाया। 12 घंटों में, स्कोर 46% से बढ़कर LongMemEval पर 83.8% हो गया — हमारे रिप्रोडक्शन रन में अब तक का सबसे ऊंचा स्कोर।
लेकिन यह बेंचमार्क स्कोर की कहानी नहीं है। यह इस बारे में है कि जब आप डेटाबेस बनाना बंद करते हैं और दिमाग बनाना शुरू करते हैं तो क्या होता है।
वह बेंचमार्क जिसने सब शुरू किया
LongMemEval शोधकर्ताओं द्वारा डिज़ाइन की गई 500 प्रश्नों की टेस्ट सूट है जो AI सिस्टम्स में लॉन्ग-टर्म मेमोरी का मूल्यांकन करती है। यह छह संज्ञानात्मक आयामों को मापती है:
| आयाम | Tokyo Brain | क्या टेस्ट करता है |
|---|---|---|
| सिंगल-सेशन प्रेफरेंस | 100% (30/30) | «यह यूज़र क्या पसंद करता है?» |
| टेम्पोरल रीजनिंग | 89% (118/133) | «X कब हुआ Y के सापेक्ष?» |
| नॉलेज अपडेट | 82% (64/78) | «X, A से B में बदला — वर्तमान क्या है?» |
| मल्टी-सेशन | 82% (109/133) | «5 कन्वर्सेशन्स में, क्या सुसंगत है?» |
| सिंगल-सेशन यूज़र | 80% (56/70) | «यूज़र ने अपने बारे में क्या कहा?» |
| सिंगल-सेशन असिस्टेंट | 75% (42/56) | «AI ने क्या रेकमेंड किया?» |
संदर्भ के लिए, जब हमने वही बेंचमार्क अन्य सिस्टम्स पर उनके डिफ़ॉल्ट कॉन्फ़िगरेशन्स से चलाया:
| सिस्टम | स्कोर | इनफ़रेंस कॉस्ट | |
|---|---|---|---|
| 1 | Tokyo Brain | 83.8% | $0 |
| 2 | Supermemory | 81.6% | $$$ |
| 3 | Zep | 71.2% | $$ |
| 4 | Mem0 | 49.0% | $ |
डिफ़ॉल्ट कॉन्फ़िगरेशन्स का उपयोग करते हुए हमारे इंटरनल रिप्रोडक्शन रन्स से स्कोर। हम इवैल्यूएशन हार्नेस को ओपन-सोर्स करने की योजना बना रहे हैं ताकि कम्युनिटी इन परिणामों को वेरिफ़ाई और रिप्रोड्यूस कर सके।
हमने पूरे 500 प्रश्न चलाए, कोई चेरी-पिक्ड सबसेट नहीं। टेस्ट डेटा HuggingFace से है। मेथडोलॉजी: हर प्रश्न सिंथेटिक मल्टी-सेशन कन्वर्सेशन्स से पहले स्टोर की गई मेमोरीज़ के खिलाफ एक रिकॉल क्वेरी है।
83.8% क्यों? क्योंकि हमने दिमाग की नकल की
ज़्यादातर AI मेमोरी सिस्टम्स महिमामंडित वेक्टर डेटाबेस हैं। एम्बेडिंग स्टोर करो, कोसाइन सिमिलैरिटी से रिट्रीव करो, हो गया। यह बिना लाइब्रेरियन के लाइब्रेरी बनाने जैसा है — आप रंग से किताबें ढूंढ सकते हैं, लेकिन अर्थ से नहीं।
Tokyo Brain की आर्किटेक्चर उन बायोलॉजिकल स्ट्रक्चर्स पर मॉडल की गई है जो मानव मेमोरी को वास्तव में काम करने योग्य बनाती हैं:
Biological Brain Tokyo Brain ───────────────────── ──────────────────────────────── Prefrontal Cortex Redis Hot Memory (working memory) (bounded short-term working set) Hippocampus Fact Extraction → answer_cards (sleep consolidation) (distill noise into facts) Synaptic Network Query Expansion + Entity Link (associative recall) (one word activates a web) Synaptic Pruning Time Decay (healthy forgetting) (old info loses priority) Amygdala Emotional Salience Scoring (emotional tagging) (family > server configs) Default Mode Network Night Cycle + MRA Engine (subconscious) (self-heals while you sleep)
ये मॉड्यूल हमारे प्रोडक्शन सिस्टम में अलग-अलग कंपोनेंट्स के रूप में इम्प्लीमेंट किए गए हैं। आइए सबसे महत्वपूर्ण वाले देखें।
यात्रा: 46% से 83.8%
10-लेयर रिकॉल पाइपलाइन
जब आप Tokyo Brain से क्वेरी करते हैं, तो आपका प्रश्न सिर्फ़ एक वेक्टर डेटाबेस तक नहीं पहुंचता। यह 10 प्रोसेसिंग स्टेज से गुज़रता है — प्रत्येक को बेंचमार्क टेस्टिंग के दौरान देखे गए एक विशिष्ट फ़ेल्योर मोड को हल करने के लिए डिज़ाइन किया गया है। कोई LLM कॉल नहीं। कोई महंगा री-रैंकिंग मॉडल नहीं। शुद्ध रिट्रीवल इंजीनियरिंग।
हर लेयर एक विशिष्ट बेंचमार्क फ़ेल्योर को ठीक करने के लिए जोड़ी गई। संयुक्त प्रभाव: एक डेवलपमेंट सेशन में 46% से 83.8%।
गणित: अपेक्षित उपयोगिता, ब्रूट फ़ोर्स नहीं
अधिकांश RAG सिस्टम एक ही सिग्नल पर मेमोरी रिट्रीव करते हैं: सेमेंटिक सिमिलैरिटी। जटिल कॉग्निशन के लिए यह मूलभूत रूप से दोषपूर्ण है — यह रेलेवेंस (सेमेंटिक ओवरलैप) को यूटिलिटी (वर्तमान कार्य के लिए मूल्य) से भ्रमित करता है।
पाइपलाइन के पीछे कॉग्निटिव साइंस और डिसीजन थ्योरी से प्रेरित एक सरल सिद्धांत है — कि मेमोरी रिट्रीवल को लौटाई गई जानकारी के अपेक्षित मूल्य को अधिकतम करना चाहिए, न कि केवल वेक्टर दूरी को कम करना:
| कंपोनेंट | Tokyo Brain लेयर | क्या करता है |
|---|---|---|
| P(relevant) | Query Expansion + Entity Linking | एलियास रिज़ॉल्यूशन के साथ मल्टी-क्वेरी सेमेंटिक सर्च |
| V(information) | Curated Boost | वेरिफ़ाइड फ़ैक्ट्स और आंसर कार्ड्स को प्राथमिकता |
| T(freshness) | Time Decay | नई मेमोरीज़ को कम डिस्टेंस स्कोर |
| E(emotion) | Emotional Salience | फ़ैमिली मेमोरीज़ सर्वर कॉन्फ़िग्स से ऊपर |
मुख्य अंतर्दृष्टि: रिट्रीवल एक सर्च प्रॉब्लम नहीं है — यह रिसोर्स एलोकेशन प्रॉब्लम है। सीमित कॉन्टेक्स्ट विंडो में, कौन सी मेमोरीज़ वर्तमान कार्य के लिए कुल अपेक्षित उपयोगिता को अधिकतम करती हैं? अधिकांश सिस्टम P (कोसाइन सिमिलैरिटी) पर रुक जाते हैं। कुछ T (रीसेंसी) जोड़ते हैं। हमने कोई दूसरा प्रोडक्ट नहीं देखा जो E (इमोशनल सैलिएंस) को शामिल करता हो — मेमोरीज़ को इस आधार पर स्कोर करना कि वे आपके लिए एक इंसान के रूप में कितनी मायने रखती हैं।
अवचेतन: Night Cycle + MRA Engine
यहां Tokyo Brain बाज़ार के हर दूसरे प्रोडक्ट से अलग होता है।
हर AI मेमोरी सिस्टम पैसिव है। आप पूछते हैं, वह रिट्रीव करता है। आप नहीं पूछते, वह बेकार बैठता है। बिना लाइब्रेरियन वाली लाइब्रेरी की तरह — किताबें कभी रिऑर्गनाइज़ नहीं होतीं जब तक कोई अंदर न आए।
मानव मस्तिष्क इस तरह काम नहीं करता। आपका Default Mode Network (DMN) तब एक्टिवेट होता है जब आप निष्क्रिय होते हैं — नींद के दौरान, दिवास्वप्न देखते समय, या शॉवर में। यह मेमोरीज़ को कंसोलिडेट करता है, विरोधाभासों को हल करता है, और कभी-कभी «यूरेका» के क्षण उत्पन्न करता है।
हमने डिजिटल समकक्ष बनाया।
Night Cycle v2 (प्रतिदिन 3:00 AM UTC पर चलता है)
एक Python स्क्रिप्ट जो पूरे नॉलेज बेस को स्कैन करती है:
- निकट-डुप्लिकेट्स — >88% एम्बेडिंग सिमिलैरिटी वाले कार्ड्स, मर्ज कैंडिडेट्स
- पुराने कार्ड्स — 30 दिन से पुराने तथ्य जहां नई जानकारी मौजूद है, अपडेट ज़रूरी
- अनाथ निर्णय — दैनिक रिकॉर्ड्स में लॉग किए गए महत्वपूर्ण निर्णय जो कभी स्थायी ज्ञान में नहीं बदले
- जंक कार्ड्स — बहुत छोटी, बहुत लंबी, या ज़्यादातर फ़ॉर्मेटिंग नॉइज़ वाली एंट्रीज़
MRA Curiosity Engine (Night Cycle के बाद चलता है)
जब Night Cycle समस्याएं ढूंढता है, तो MRA इंजन उन्हें सिर्फ़ फ़्लैग नहीं करता — वह तीन-पर्सोना ट्रिब्यूनल का उपयोग करके बहस करता है और उन्हें हल करता है:
हमारे शुरुआती स्टेजिंग रन्स में, MRA इंजन ने सफलतापूर्वक डुप्लिकेट कार्ड्स को ऑटो-मर्ज किया, अस्पष्ट मामलों को मानव समीक्षा के लिए फ़्लैग किया, और — विशेष रूप से — Skeptic पर्सोना ने एक प्रस्तावित मर्ज में हैल्यूसिनेशन की सही पहचान की, जिससे खराब डेटा लिखे जाने से रोका गया।
चिंता प्रतिक्रिया: एन्ट्रॉपी मॉनिटर
Night Cycle एक cron शेड्यूल पर चलता है — एक डिजिटल अलार्म क्लॉक। लेकिन मानव दिमाग अलार्म का इंतज़ार नहीं करते। वे रियल टाइम में नोटिस करते हैं जब कुछ गलत लगता है।
Entropy Monitor Tokyo Brain को यह क्षमता देता है। यह 20 मिनट की स्लाइडिंग विंडो में हर मेमोरी स्टोर ऑपरेशन को ट्रैक करता है। जब यह एक ही टॉपिक क्लस्टर में कई स्टोर्स का पता लगाता है (विंडो में >=4), तो यह अलर्ट फ़ायर करता है:
{
"status": "ELEVATED",
"topic": "brain|pricing|tokyo|update|version",
"count": 5,
"message": "Pricing strategy is changing rapidly. Consider consolidating."
}
यह कोई cron job नहीं है। यह एक रियल-टाइम नर्वस सिस्टम है। दिमाग «चिंतित» हो जाता है जब ज्ञान अस्थिर हो जाता है — ठीक बायोलॉजिकल एपिस्टेमिक स्ट्रेस की तरह।
इमोशनल कॉर्टेक्स
अंतिम टुकड़ा: सभी मेमोरीज़ को समान नहीं माना जाना चाहिए।
जब कोई मेमोरी स्टोर होती है, Tokyo Brain स्वचालित रूप से एक इमोशनल सैलिएंस स्कोर (0.0 - 1.0) कैलकुलेट करता है:
"Oscar rode a bike for the first time. The whole family celebrated. Mom cried." → salience: 0.85 "Caddy upgraded from 2.10 to 2.11.2. Reverse proxy restarted on port 443." → salience: 0.30 "Decided Tokyo Brain's business model: free software + paid memory. This is our North Star strategy." → salience: 0.75
रिकॉल के दौरान, 0.5 से अधिक सैलिएंस वाली मेमोरीज़ को 30% तक का डिस्टेंस बूस्ट मिलता है। आपके बच्चे की पहली साइकिल राइड हमेशा सर्वर कॉन्फ़िग चेंज से ऊपर रैंक करेगी।
स्कोरिंग पैटर्न-बेस्ड ह्यूरिस्टिक्स (फ़ैमिली मेंशन्स, माइलस्टोन्स, स्ट्रैटेजिक डिसीजन्स) का उपयोग करती है — कोई LLM ज़रूरत नहीं, हर स्टोर ऑपरेशन पर ज़ीरो लेटेंसी।
क्रिप्टोग्राफ़िक कॉर्टेक्स
हर मेमोरी मॉडिफ़िकेशन क्रिप्टोग्राफ़िक रूप से साइन और लॉग की जाती है। यह एक टैम्पर-प्रूफ़ ऑडिट ट्रेल बनाता है जिसे कोई भी — हम सहित — बाद में बदल नहीं सकता।
- SHA-256 Hash — हर मेमोरी को राइट टाइम पर एक यूनिक कंटेंट फ़िंगरप्रिंट मिलता है
- डिजिटल सिग्नेचर — हर म्यूटेशन Ethereum-कम्पैटिबल वॉलेट की से साइन होता है
- एविडेंस चेन — पूरा म्यूटेशन हिस्ट्री: किसने क्या बदला, कब, और क्यों
- वेरिफ़िकेशन — कोई भी
/verifyएंडपॉइंट के ज़रिए मेमोरी की इंटेग्रिटी वेरिफ़ाई कर सकता है
इसका मतलब: अगर किसी AI एजेंट ने छह महीने पहले किसी मेमोरी के आधार पर कोई फ़ैसला लिया, तो आप साबित कर सकते हैं कि उस मेमोरी के साथ तब से कोई छेड़छाड़ नहीं हुई। एंटरप्राइज़ ऑडिट-रेडी।
सेफ़्टी ट्रायंगल
तीन हार्डकोडेड सेफ़्टी मैकेनिज़्म जिन्हें कोई कॉन्फ़िडेंस स्कोर ओवरराइड नहीं कर सकता:
मल्टीमोडल मेमोरी
Tokyo Brain सिर्फ़ टेक्स्ट स्टोर नहीं करता। यह यूनिफ़ाइड सेंसरी पेलोड्स स्वीकार करता है — टेक्स्ट, ऑडियो फ़ीचर्स, और विज़ुअल कॉन्टेक्स्ट एक सिंगल मेमोरी में:
{
"sensory_inputs": {
"text_transcript": "I'm fine, I'll handle it.",
"audio_features": { "speaker_id": "Chia", "tone": "exhausted" },
"visual_features": { "scene_context": "messy_living_room", "facial_expression": "fatigued" }
}
}
सिस्टम एम्बेडिंग के लिए एक मल्टीमोडल नैरेटिव सिंथेसाइज़ करता है: [Speaker: Chia] [Tone: exhausted] [Visual: messy_living_room] Spoken: "I'm fine" — सिर्फ़ कीवर्ड्स से नहीं, बल्कि इमोशन, सीन, या स्पीकर से रिकॉल करने में सक्षम।
फ़्रेमवर्क इकोसिस्टम
चार प्रमुख AI एजेंट फ़्रेमवर्क्स के लिए ड्रॉप-इन एडॉप्टर्स। बस दो लाइनें स्वैप करें:
# LangChain from tokyo_brain.langchain import TokyoBrainMemory # CrewAI from tokyo_brain.crewai import TokyoBrainCrewMemory # AutoGen from tokyo_brain.autogen import TokyoBrainAutoGenMemory # LlamaIndex from tokyo_brain.llamaindex import TokyoBrainRetriever
आपका मौजूदा एजेंट कोड बिल्कुल वैसा ही रहता है। आप बस मेमोरी बैकएंड स्वैप करते हैं।
हम क्या नहीं करते (और यह क्यों मायने रखता है)
- कोई «सब कुछ स्टोर करो» अप्रोच नहीं। बिल्ट-इन Sanitizer स्टोरेज से पहले लो-सिग्नल कंटेंट को फ़िल्टर करता है। हम मानते हैं कि एग्रेसिव फ़िल्टरिंग सब कुछ जमा करने से बेहतर रिकॉल उत्पन्न करती है।
- कोई वेंडर लॉक-इन नहीं। BYOK (Bring Your Own Key) — अपना LLM प्रोवाइडर उपयोग करें। हम केवल मेमोरी इन्फ़्रास्ट्रक्चर के लिए चार्ज करते हैं, कभी कंप्यूट के लिए नहीं।
- डिफ़ॉल्ट रूप से एन्क्रिप्शन। AES-256-GCM एन्क्रिप्शन एट रेस्ट। प्रति-टेनेंट की आइसोलेशन। यह पहले दिन से डिज़ाइन रिक्वायरमेंट थी।
- कोई अंग्रेज़ी-ओनली बायस नहीं। BGE-m3 एम्बेडिंग्स + 50+ भाषाओं का समर्थन। चीनी में क्वेरी करें, अंग्रेज़ी में स्टोर की गई मेमोरीज़ रिट्रीव करें।
ईमानदार कमियां
हम पारदर्शी इंजीनियरिंग में विश्वास करते हैं, तो यहां है जो Tokyo Brain के पास अभी तक नहीं है:
- कोई मल्टीमोडल मेमोरी नहीं — केवल टेक्स्ट। इमेज, ऑडियो और वीडियो रोडमैप में हैं।
- कोई क्रॉस-यूज़र नॉलेज शेयरिंग नहीं — प्रत्येक टेनेंट पूरी तरह आइसोलेटेड है। फ़ेडरेशन प्लान्ड है।
- सीमित इमोशनल डिटेक्शन — पैटर्न-बेस्ड, LLM-बेस्ड नहीं। ज्ञात पैटर्न्स के लिए अच्छा काम करता है, नए इमोशनल कॉन्टेक्स्ट्स मिस करता है।
- छोटा यूज़र बेस — हम अल्फ़ा में हैं। सिस्टम काम करता है, बेंचमार्क इसे साबित करता है, लेकिन हमें और रियल-वर्ल्ड वैलिडेशन चाहिए।
- रिकॉल लेटेंसी — कंकरेंट लोड में ~5s (सिंगल EC2 इंस्टेंस पर CPU-बाउंड एम्बेडिंग, कोई GPU नहीं)। हमने रॉ स्पीड की बजाय प्रोसेसिंग की गहराई के लिए ऑप्टिमाइज़ किया।
आर्किटेक्चर सारांश
Store Path:
Input → Sanitizer → Emotional Salience → Fact Extraction
→ BGE-m3 Embedding → ChromaDB → Entropy Monitor
Recall Path:
Query → Expansion → Entity Link → Temporal Parse
→ Multi-Collection Search → Curated Boost → Time Decay
→ Emotional Boost → Temporal Filter → Re-rank → Dedup
Background:
3:00 AM — Night Cycle v2 (scan for issues)
3:10 AM — MRA Engine (three-persona debate + auto-resolve)
Real-time — Entropy Monitor (knowledge stability tracking)
इसे आज़माएं
pip install tokyo-brain
from tokyo_brain import TokyoBrain
brain = TokyoBrain(api_key="your-key")
# Store a memory
brain.store("Oscar rode his bike for the first time today")
# Recall with full 10-layer pipeline
results = brain.recall("What happened with Oscar recently?")
# → Returns Oscar's bike ride (salience: 0.85), not your server logs
तीन लाइनें आपके AI को एक हिप्पोकैम्पस, एक एमिग्डला और एक अवचेतन देने के लिए।
पहले से LangChain उपयोग कर रहे हैं? दो-लाइन स्वैप:
# Before (goldfish memory): from langchain.memory import ConversationBufferMemory memory = ConversationBufferMemory() # After (10-layer brain with subconscious): from tokyo_brain.langchain import TokyoBrainMemory memory = TokyoBrainMemory(api_key="tb-...") # That's it. Your chain code stays exactly the same.
RAG चेन्स के लिए Retriever और पर्सिस्टेंट सेशन्स के लिए ChatMessageHistory के रूप में भी काम करता है।
API Docs: api.tokyobrain.ai | PyPI: tokyo-brain 0.1.0