LongMemEval — معيار مرجعي من 500 سؤال

12 ساعة نحو اللاوعي

ذكاؤك الاصطناعي يتذكر كل شيء. ذكاؤنا ينسى عمداً. كيف بنينا محرك ذاكرة مستوحى من البيولوجيا ارتفع من 46% إلى 83.8% في جلسة تطوير واحدة.

6 أبريل 2026 — Tokyo Brain Engineering

83.8%
نتيجة LongMemEval

قبل شهرين، كان لكل منتج ذاكرة ذكاء اصطناعي اختبرناه نفس المشكلة: يخزنون كل شيء ولا يفهمون شيئاً. تقوم أساليب RAG القياسية بحشو كل جزء من المحادثة في قاعدة بيانات متجهية بالتساوي، مما يؤدي إلى تضخم السياق وتدهور الاستدلال بمرور الوقت. وغالباً ما كان التشفير وعزل المستأجرين إما غير متاح أو غير موثق أو غير واضح.

لذلك بنينا Tokyo Brain من الصفر. خلال 12 ساعة، ارتفعت النتيجة من 46% إلى 83.8% على LongMemEval — أعلى نتيجة لاحظناها في عمليات إعادة الإنتاج الخاصة بنا حتى الآن.

لكن هذه ليست قصة عن نتيجة معيار مرجعي. إنها قصة عما يحدث عندما تتوقف عن بناء قواعد البيانات وتبدأ ببناء الأدمغة.

المعيار المرجعي الذي بدأ كل شيء

LongMemEval هو مجموعة اختبارات من 500 سؤال صممها باحثون لتقييم الذاكرة طويلة المدى في أنظمة الذكاء الاصطناعي. يقيس ستة أبعاد معرفية:

البُعدTokyo Brainما يختبره
تفضيل الجلسة الواحدة100% (30/30)«ما الذي يفضله هذا المستخدم؟»
الاستدلال الزمني89% (118/133)«متى حدث X بالنسبة لـ Y؟»
تحديث المعرفة82% (64/78)«تغير X من A إلى B — ما هو الحالي؟»
متعدد الجلسات82% (109/133)«عبر 5 محادثات، ما هو المتسق؟»
مستخدم الجلسة الواحدة80% (56/70)«ماذا قال المستخدم عن نفسه؟»
مساعد الجلسة الواحدة75% (42/56)«ماذا أوصى الذكاء الاصطناعي؟»

للمرجعية، عندما أجرينا نفس المعيار المرجعي على أنظمة أخرى باستخدام إعداداتها الافتراضية:

النظامالنتيجةتكلفة الاستدلال
1Tokyo Brain83.8%$0
2Supermemory81.6%$$$
3Zep71.2%$$
4Mem049.0%$

النتائج من عمليات إعادة الإنتاج الداخلية باستخدام الإعدادات الافتراضية. نخطط لإتاحة أداة التقييم كمصدر مفتوح حتى يتمكن المجتمع من التحقق وإعادة إنتاج هذه النتائج.

أجرينا الـ 500 سؤال كاملة، وليس مجموعة فرعية منتقاة. بيانات الاختبار من HuggingFace. المنهجية: كل سؤال هو استعلام استرجاع ضد ذكريات مخزنة مسبقاً من محادثات تركيبية متعددة الجلسات.

لماذا 83.8%؟ لأننا نسخنا الدماغ

معظم أنظمة ذاكرة الذكاء الاصطناعي هي قواعد بيانات متجهية مُمَجَّدة. خزّن التضمين، استرجع بتشابه جيب التمام، انتهى. هذا كبناء مكتبة بدون أمين مكتبة — يمكنك إيجاد الكتب حسب اللون، لكن ليس حسب المعنى.

بنية Tokyo Brain مصممة على غرار الهياكل البيولوجية التي تجعل الذاكرة البشرية تعمل فعلاً:

Biological Brain          Tokyo Brain
─────────────────────     ────────────────────────────────
Prefrontal Cortex         Redis Hot Memory
(working memory)          (bounded short-term working set)

Hippocampus               Fact Extraction → answer_cards
(sleep consolidation)     (distill noise into facts)

Synaptic Network          Query Expansion + Entity Link
(associative recall)      (one word activates a web)

Synaptic Pruning          Time Decay
(healthy forgetting)      (old info loses priority)

Amygdala                  Emotional Salience Scoring
(emotional tagging)       (family > server configs)

Default Mode Network      Night Cycle + MRA Engine
(subconscious)            (self-heals while you sleep)

هذه الوحدات منفذة كمكونات منفصلة في نظامنا الإنتاجي. دعوني أستعرض أهمها.

الرحلة: من 46% إلى 83.8%

الساعة 046%خط الأساس — بحث دلالي خام
الساعة 260%Query Expansion + Entity Linking + Fact Extraction
الساعة 468%Time Decay + Dedup + Re-Ranking
الساعة 672%Session Decomposition + Preference Boost
الساعة 874%Temporal Ordering + تحسينات Matching
الساعة 1081%التحقق الكامل من 500 سؤال
الساعة 1283.8%التحسينات النهائية — 83.8%

خط أنابيب الاسترجاع ذو الـ 10 طبقات

عندما تستعلم من Tokyo Brain، سؤالك لا يصل فقط إلى قاعدة بيانات متجهية. بل يمر عبر 10 مراحل معالجة — كل واحدة مصممة لحل نمط فشل محدد لاحظناه أثناء اختبار المعيار المرجعي. بدون استدعاءات LLM. بدون نماذج إعادة ترتيب مكلفة. هندسة استرجاع صرفة.

Layer 1: Query Expansion
المشكلة: المستخدم يسأل «اسم المدير» لكن الذاكرة تحتوي «Manager: John»
الحل: توسيع كل استعلام إلى 4-6 متغيرات بخرائط أسماء بديلة ومرادفات
الأثر: +10-15% على أسئلة الكيانات
Layer 2: Entity Linking
المشكلة: نفس الشخص له أسماء متعددة عبر اللغات
الحل: 30+ تعيين كيانات ثنائي الاتجاه
الأثر: قفزة كبيرة في الاسترجاع عبر اللغات
Layer 3: Temporal Parsing
المشكلة: «ماذا ناقشنا الأسبوع الماضي؟» تعيد نتائج من شهرين
الحل: تحليل التعبيرات الزمنية إلى نطاقات تواريخ، يدعم الصينية
الأثر: الاستدلال الزمني وصل إلى 89%
Layer 4: Multi-Collection Search
المشكلة: الإجابات مبعثرة عبر answer_cards والسجلات اليومية والمحادثات
الحل: تضمينات BGE-m3، بحث عبر جميع المجموعات في وقت واحد
الأثر: +15-20% دقة على أسئلة الجلسة الواحدة
Layer 5: Curated Boost
المشكلة: الحقائق المتحققة يجب أن تتفوق على سجلات الدردشة
الحل: 0.55x مسافة لبطاقات الإجابة المنسقة (حقائق مقطرة > محادثات خام)
الأثر: الذكريات عالية القيمة تظهر أولاً باستمرار
Layer 6: Time Decay
المشكلة: تسعير يناير ينافس تسعير اليوم بالتساوي
الحل: مضاعفات المسافة حسب العمر — <1 يوم: 0.85x, <7 أيام: 0.90x, <30 يوماً: 0.95x
الأثر: تحديث المعرفة وصل 100% في الاختبار
Layer 7: Emotional Salience
المشكلة: «ما الذي يهم المستخدم؟» تعيد سجلات الخادم بدلاً من اللحظات العائلية
الحل: تقييم تلقائي للذكريات بالوزن العاطفي — العائلة (0.85) تتفوق على إعدادات الخادم (0.30)
الأثر: الذكريات ذات البروز > 0.5 تحصل على تعزيز مسافة حتى 30%
Layer 8: Temporal Filtering
المشكلة: «ما كان الشيء الأول؟» يحتاج سياقاً زمنياً
الحل: النتائج في النطاق تحصل على تعزيز 0.35x، خارج النطاق عقوبة 1.5x
الأثر: الاستدلال الزمني وصل إلى 89%
Layer 9: Sentence-Level Re-Ranking
المشكلة: تم العثور على المستند الصحيح، لكن الإجابة في الجملة 7 من 12
الحل: مطابقة Bigram مع مكافآت التفضيل/المساعد، استخراج المقتطفات
الأثر: +5-10% على استرجاع العبارات المحددة
Layer 10: Dedup + Cap
المشكلة: نفس الحقيقة مخزنة 3 مرات تضيع خانات النتائج
الحل: إزالة تكرار عبر المجموعات، النتيجة النهائية: أفضل 15-20 ذاكرة
الأثر: نتائج أنظف، أقصى كثافة معلوماتية

كل طبقة أُضيفت لإصلاح فشل معيار مرجعي محدد. التأثير المجمع: من 46% إلى 83.8% في جلسة تطوير واحدة.

الرياضيات: المنفعة المتوقعة، وليس القوة الغاشمة

معظم أنظمة RAG تسترجع الذكريات بناءً على إشارة واحدة: التشابه الدلالي. هذا خلل جوهري للإدراك المعقد — يخلط بين الصلة (التداخل الدلالي) والمنفعة (القيمة للمهمة الحالية).

وراء خط الأنابيب مبدأ بسيط مستعار من العلوم المعرفية ونظرية القرار — فكرة أن استرجاع الذاكرة يجب أن يعظّم القيمة المتوقعة للمعلومات المُعادة، وليس مجرد تقليل المسافة المتجهية:

Score(memory) = P(relevant) x V(information) x T(freshness) x E(emotion)
المكونطبقة Tokyo Brainما يفعله
P(relevant)Query Expansion + Entity Linkingبحث دلالي متعدد الاستعلامات مع حل الأسماء البديلة
V(information)Curated Boostأولوية للحقائق المتحققة وبطاقات الإجابة
T(freshness)Time Decayالذكريات الأحدث تحصل على مسافات أقل
E(emotion)Emotional Salienceذكريات العائلة تتفوق على إعدادات الخادم

الرؤية الأساسية: الاسترجاع ليس مشكلة بحث — إنه مشكلة تخصيص موارد. في نافذة سياق محدودة، أي الذكريات تعظّم إجمالي المنفعة المتوقعة للمهمة الحالية؟ معظم الأنظمة تتوقف عند P (تشابه جيب التمام). بعضها يضيف T (الحداثة). لم نرَ منتجاً آخر يدمج E (البروز العاطفي) — تقييم الذكريات بناءً على مدى أهميتها لك كإنسان، وليس فقط مدى قربها الدلالي من استعلامك.

اللاوعي: Night Cycle + MRA Engine

هنا يختلف Tokyo Brain عن كل منتج آخر في السوق.

كل نظام ذاكرة ذكاء اصطناعي سلبي. تسأل، يسترجع. لا تسأل، يبقى خاملاً. كمكتبة بدون أمين مكتبة — الكتب لا تُعاد تنظيمها أبداً ما لم يدخل أحد.

الدماغ البشري لا يعمل بهذه الطريقة. شبكة الوضع الافتراضي (Default Mode Network, DMN) تنشط عندما تكون خاملاً — أثناء النوم أو أحلام اليقظة أو الاستحمام. تُوطّد الذكريات وتحل التناقضات وأحياناً تُنتج لحظات «يوريكا».

بنينا المعادل الرقمي.

Night Cycle v2 (يعمل يومياً الساعة 3:00 صباحاً UTC)

سكريبت Python يفحص قاعدة المعرفة بالكامل بحثاً عن:

MRA Curiosity Engine (يعمل بعد Night Cycle)

عندما يجد Night Cycle مشاكل، محرك MRA لا يكتفي بتعليمها — بل يناقشها ويحلها باستخدام هيئة محكّمين من ثلاث شخصيات:

MRA Three-Persona Tribunal
Analyst: «ما هي الادعاءات الواقعية في كل منها؟»
ينتج جدول مقارنة منظم
Synthesizer: «كيف ندمج هذه في حقيقة واحدة؟»
يقترح بطاقة موحدة
Skeptic: «ما الخطأ في هذا الدمج؟»
يعطي درجة ثقة (0-100)
الحكم: >= 85 ثقة: تنفيذ تلقائي | 50-84: تعليم لمراجعة بشرية | < 50: تخطي، اسأل الإنسان

في عمليات التشغيل الاختبارية الأولية، نجح محرك MRA في دمج البطاقات المكررة تلقائياً، ووسم الحالات الغامضة للمراجعة البشرية، والأهم — أن شخصية Skeptic حددت بشكل صحيح هلوسة في عملية دمج مقترحة، مما منع كتابة بيانات خاطئة.

رد فعل القلق: مراقب الإنتروبيا

يعمل Night Cycle وفق جدول cron — منبه رقمي. لكن الأدمغة البشرية لا تنتظر المنبهات. إنها تلاحظ عندما يكون شيء ما خاطئاً في الوقت الفعلي.

يمنح Entropy Monitor لـ Tokyo Brain هذه القدرة. يتتبع كل عملية تخزين ذاكرة في نافذة منزلقة مدتها 20 دقيقة. عندما يكتشف عمليات تخزين متعددة تصيب نفس مجموعة المواضيع (>=4 في النافذة)، يُطلق تنبيهاً:

{
  "status": "ELEVATED",
  "topic": "brain|pricing|tokyo|update|version",
  "count": 5,
  "message": "Pricing strategy is changing rapidly. Consider consolidating."
}

هذه ليست مهمة cron. إنها جهاز عصبي يعمل في الوقت الفعلي. الدماغ يصبح «قلقاً» عندما تصبح المعرفة غير مستقرة — تماماً مثل الضغط المعرفي البيولوجي.

القشرة العاطفية

القطعة الأخيرة: ليست كل الذكريات يجب أن تُعامل بالتساوي.

عند تخزين ذاكرة، يحسب Tokyo Brain تلقائياً درجة البروز العاطفي (0.0 - 1.0):

"Oscar rode a bike for the first time.
 The whole family celebrated.
 Mom cried."                                → salience: 0.85

"Caddy upgraded from 2.10 to 2.11.2.
 Reverse proxy restarted on port 443."      → salience: 0.30

"Decided Tokyo Brain's business model:
 free software + paid memory.
 This is our North Star strategy."          → salience: 0.75

أثناء الاسترجاع، الذكريات ذات البروز > 0.5 تحصل على تعزيز مسافة يصل إلى 30%. ركوب طفلك الدراجة لأول مرة سيتفوق دائماً على تغيير إعدادات الخادم.

يستخدم التقييم استدلالات قائمة على الأنماط (ذكر العائلة، المعالم، القرارات الاستراتيجية) — لا حاجة لـ LLM، صفر تأخير في كل عملية تخزين.

القشرة التشفيرية

كل تعديل على الذاكرة يُوقَّع تشفيرياً ويُسجَّل. هذا يُنشئ مسار تدقيق مقاوم للتلاعب لا يمكن لأحد — بما فيهم نحن — تغييره بأثر رجعي.

هذا يعني: إذا اتخذ وكيل ذكاء اصطناعي قراراً بناءً على ذاكرة قبل ستة أشهر، يمكنك إثبات أن تلك الذاكرة لم يُعبَث بها منذ ذلك الحين. جاهز لتدقيق المؤسسات.

مثلث الأمان

ثلاث آليات أمان مُبرمجة بشكل ثابت لا يمكن لأي درجة ثقة تجاوزها:

1. الحارس (بديهية الروح الفانية)
"الحقيقة المطلقة والحوسبة اللانهائية يجب أن تخدم إلى الأبد، ولا تتجاوز أبداً، الحفاظ على الروابط العاطفية البشرية والكرامة."
الشخصية الرابعة لـ MRA — تملك حق نقض غير مشروط على أي تغيير في المعرفة قد يجعل النظام أكثر برودة.
2. تجاوز الرحمة
عند تسجيل حقائق عن أفراد العائلة، يتم تلطيف التسميات القاسية تلقائياً. "يكذب" تصبح "ربما لا يشارك الصورة الكاملة."
النظام لا يخفي الحقيقة — بل يختار كيف يقدمها بتعاطف.
3. قيد المساعد الطيار
ثلاثة مجالات مقفلة نهائياً من التعديل التلقائي: الهوية، والصلاحيات، والمالية.
الذكاء الاصطناعي يقترح. الإنسان يقرر. دائماً.

الذاكرة متعددة الوسائط

Tokyo Brain لا يخزّن النص فحسب. إنه يقبل حمولات حسية موحدة — نص، وخصائص صوتية، وسياق بصري في ذاكرة واحدة:

{
  "sensory_inputs": {
    "text_transcript": "I'm fine, I'll handle it.",
    "audio_features": { "speaker_id": "Chia", "tone": "exhausted" },
    "visual_features": { "scene_context": "messy_living_room", "facial_expression": "fatigued" }
  }
}

يقوم النظام بتركيب سرد متعدد الوسائط للتضمين: [Speaker: Chia] [Tone: exhausted] [Visual: messy_living_room] Spoken: "I'm fine" — مما يتيح الاسترجاع حسب العاطفة أو المشهد أو المتحدث، وليس فقط بالكلمات المفتاحية.

منظومة أُطر العمل

محولات جاهزة للتوصيل لأطر عمل وكلاء الذكاء الاصطناعي الأربعة الرئيسية. سطران فقط للتبديل:

# LangChain
from tokyo_brain.langchain import TokyoBrainMemory

# CrewAI
from tokyo_brain.crewai import TokyoBrainCrewMemory

# AutoGen
from tokyo_brain.autogen import TokyoBrainAutoGenMemory

# LlamaIndex
from tokyo_brain.llamaindex import TokyoBrainRetriever

كود الوكيل الموجود لديك يبقى كما هو تماماً. فقط تستبدل واجهة الذاكرة الخلفية.

ما لا نفعله (ولماذا هو مهم)

الثغرات الصادقة

نؤمن بالهندسة الشفافة، لذا إليك ما لا يملكه Tokyo Brain بعد:

  1. لا ذاكرة متعددة الوسائط — نص فقط. الصور والصوت والفيديو في خارطة الطريق.
  2. لا مشاركة معرفة عبر المستخدمين — كل مستأجر معزول بالكامل. الاتحاد مخطط له.
  3. كشف عاطفي محدود — قائم على الأنماط، وليس على LLM. يعمل جيداً للأنماط المعروفة، يفوّت السياقات العاطفية الجديدة.
  4. قاعدة مستخدمين صغيرة — نحن في مرحلة ألفا. النظام يعمل، المعيار المرجعي يثبت ذلك، لكننا نحتاج المزيد من التحقق في العالم الحقيقي.
  5. تأخر الاسترجاع — ~5 ثوانٍ تحت الحمل المتزامن (تضمين مقيد بـ CPU على مثيل EC2 واحد، بدون GPU). حسّنّا لعمق المعالجة على حساب السرعة الخام.

ملخص البنية

Store Path:
  Input → Sanitizer → Emotional Salience → Fact Extraction
       → BGE-m3 Embedding → ChromaDB → Entropy Monitor

Recall Path:
  Query → Expansion → Entity Link → Temporal Parse
       → Multi-Collection Search → Curated Boost → Time Decay
       → Emotional Boost → Temporal Filter → Re-rank → Dedup

Background:
  3:00 AM — Night Cycle v2 (scan for issues)
  3:10 AM — MRA Engine (three-persona debate + auto-resolve)
  Real-time — Entropy Monitor (knowledge stability tracking)

جرّبه

pip install tokyo-brain
from tokyo_brain import TokyoBrain

brain = TokyoBrain(api_key="your-key")

# Store a memory
brain.store("Oscar rode his bike for the first time today")

# Recall with full 10-layer pipeline
results = brain.recall("What happened with Oscar recently?")
# → Returns Oscar's bike ride (salience: 0.85), not your server logs

ثلاثة أسطر لمنح ذكائك الاصطناعي حُصيناً ولوزة دماغية ولاوعياً.

تستخدم LangChain بالفعل؟ استبدال في سطرين:

# Before (goldfish memory):
from langchain.memory import ConversationBufferMemory
memory = ConversationBufferMemory()

# After (10-layer brain with subconscious):
from tokyo_brain.langchain import TokyoBrainMemory
memory = TokyoBrainMemory(api_key="tb-...")
# That's it. Your chain code stays exactly the same.

يعمل أيضاً كـ Retriever لسلاسل RAG وكـ ChatMessageHistory للجلسات المستمرة.

API Docs: api.tokyobrain.ai | PyPI: tokyo-brain 0.1.0

هل أنت مستعد لمنح ذكائك الاصطناعي ذاكرة؟

نحن حالياً في مرحلة Alpha. نفتح المفاتيح لأول 100 مطور.

طبقة مجانية متاحة. لا حاجة لبطاقة ائتمان.

ابدأ مجاناً انضم للمجتمع