LongMemEval 500문항 벤치마크

12시간 만에 잠재의식을 구축하다

당신의 AI는 모든 것을 기억합니다. 우리의 AI는 의도적으로 잊습니다. 생물학에서 영감받은 기억 엔진을 구축하여 한 번의 개발 세션에서 46%에서 83.8%까지 도달한 방법.

2026년 4월 6일 — Tokyo Brain Engineering

83.8%
LongMemEval 점수

두 달 전, 우리가 테스트한 모든 AI 기억 제품에는 같은 문제가 있었습니다: 모든 것을 저장하지만 아무것도 이해하지 못합니다. 표준 RAG 접근 방식은 모든 대화 조각을 동등하게 벡터 DB에 밀어넣어 컨텍스트 비대화와 시간이 지남에 따른 추론 능력 저하를 초래합니다. 암호화와 테넌트 격리는 대부분 사용 불가, 문서 미비, 또는 불명확한 상태였습니다.

그래서 우리는 Tokyo Brain을 처음부터 만들었습니다. 12시간 만에 46%에서 LongMemEval 83.8%까지 도달했습니다 — 이는 우리 자체 재현 테스트에서 관찰한 최고 점수입니다.

하지만 이것은 벤치마크 점수에 대한 이야기가 아닙니다. 데이터베이스 구축을 멈추고 뇌 구축을 시작했을 때 무슨 일이 일어나는지에 대한 이야기입니다.

모든 것이 시작된 벤치마크

LongMemEval은 연구자들이 AI 시스템의 장기 기억을 평가하기 위해 설계한 500문항 테스트 스위트입니다. 6가지 인지 차원을 측정합니다:

차원Tokyo Brain테스트 내용
단일 세션 선호도100% (30/30)"이 사용자는 무엇을 선호하는가?"
시간 추론89% (118/133)"X는 Y에 비해 언제 발생했는가?"
지식 업데이트82% (64/78)"X가 A에서 B로 변경됨 — 현재는?"
멀티 세션82% (109/133)"5개 대화에서 일관된 것은?"
단일 세션 사용자80% (56/70)"사용자가 자신에 대해 뭐라고 했는가?"
단일 세션 어시스턴트75% (42/56)"AI가 무엇을 추천했는가?"

참고로, 다른 시스템의 기본 설정으로 동일한 벤치마크를 실행했을 때:

시스템점수추론 비용
1Tokyo Brain83.8%$0
2Supermemory81.6%$$$
3Zep71.2%$$
4Mem049.0%$

점수는 기본 설정을 사용한 내부 재현 테스트에서 가져온 것입니다. 러너와 설정 정리 후 평가 하네스를 오픈소스로 공개할 계획이며, 커뮤니티가 이 결과를 검증하고 재현할 수 있도록 할 것입니다.

전체 500문항을 실행했습니다. 선별된 하위 집합이 아닙니다. 테스트 데이터는 HuggingFace에서 가져왔습니다. 방법론: 각 질문은 합성 멀티 세션 대화에서 이전에 저장된 기억에 대한 회상 쿼리입니다.

왜 83.8%인가? 뇌를 모방했기 때문입니다

대부분의 AI 기억 시스템은 미화된 벡터 데이터베이스에 불과합니다. 임베딩을 저장하고 코사인 유사도로 검색하면 끝. 이는 사서가 없는 도서관을 짓는 것과 같습니다 — 색상으로 책을 찾을 수는 있지만 의미로는 찾을 수 없습니다.

Tokyo Brain의 아키텍처는 인간의 기억을 실제로 작동하게 하는 생물학적 구조를 모델로 합니다:

Biological Brain          Tokyo Brain
─────────────────────     ────────────────────────────────
Prefrontal Cortex         Redis Hot Memory
(working memory)          (bounded short-term working set)

Hippocampus               Fact Extraction → answer_cards
(sleep consolidation)     (distill noise into facts)

Synaptic Network          Query Expansion + Entity Link
(associative recall)      (one word activates a web)

Synaptic Pruning          Time Decay
(healthy forgetting)      (old info loses priority)

Amygdala                  Emotional Salience Scoring
(emotional tagging)       (family > server configs)

Default Mode Network      Night Cycle + MRA Engine
(subconscious)            (self-heals while you sleep)

이 모듈들은 우리 프로덕션 시스템에서 별도의 컴포넌트로 구현되어 있습니다. 가장 중요한 것들을 안내하겠습니다.

여정: 46%에서 83.8%로

Hour 046%베이스라인 — 기본 시맨틱 검색
Hour 260%Query Expansion + Entity Linking + Fact Extraction
Hour 468%Time Decay + Dedup + Re-Ranking
Hour 672%Session Decomposition + Preference Boost
Hour 874%Temporal Ordering + Matching 개선
Hour 1081%전체 500문항 검증
Hour 1283.8%최종 최적화 — 83.8%

10단계 회상 파이프라인

Tokyo Brain에 쿼리를 보내면 질문이 단순히 벡터 데이터베이스에 도달하는 것이 아닙니다. 10개의 처리 단계를 통과합니다 — 각각은 벤치마크 테스트 중 관찰한 특정 실패 모드를 해결하기 위해 설계되었습니다. LLM 호출 없음. 비싼 리랭킹 모델 없음. 순수 검색 엔지니어링.

Layer 1: Query Expansion
문제: 사용자가 "상사 이름"을 물었지만 기억에는 "Manager: John"으로 저장됨
해결책: 각 쿼리를 별칭 맵과 동의어로 4-6개 변형으로 확장
효과: 엔티티 관련 질문에서 +10-15%
Layer 2: Entity Linking
문제: 같은 사람이 언어에 따라 여러 이름을 가짐
해결책: 30개 이상의 양방향 엔티티 매핑
효과: 교차 언어 회상 능력 대폭 향상
Layer 3: Temporal Parsing
문제: "지난주에 무엇을 논의했나요?"가 두 달 전 결과를 반환
해결책: 시간 표현을 날짜 범위로 파싱, 중국어 지원
효과: 시간 추론 89% 달성
Layer 4: Multi-Collection Search
문제: 답변이 answer_cards, 일일 기록, 대화에 분산
해결책: BGE-m3 임베딩, 모든 컬렉션 동시 검색
효과: 단일 세션 질문 정확도 +15-20%
Layer 5: Curated Boost
문제: 검증된 사실이 채팅 로그보다 상위에 있어야 함
해결책: 큐레이션된 답변 카드의 거리를 0.55배로 (정제된 사실 > 원시 대화)
효과: 고가치 기억이 안정적으로 먼저 노출
Layer 6: Time Decay
문제: 1월 가격이 오늘 가격과 동등하게 경쟁
해결책: 시간 기반 거리 승수 — <1일: 0.85x, <7일: 0.90x, <30일: 0.95x
효과: 지식 업데이트 테스트에서 100% 달성
Layer 7: Emotional Salience
문제: "사용자에게 중요한 것은?"이 서버 로그를 반환
해결책: 감정적 가중치로 자동 스코어링 — 가족(0.85)이 서버 설정(0.30)보다 상위
효과: 현저성 > 0.5인 기억이 최대 30% 거리 부스트
Layer 8: Temporal Filtering
문제: "첫 번째 것은?"에는 시간순 컨텍스트가 필요
해결책: 범위 내 결과에 0.35x 부스트, 범위 외에 1.5x 페널티
효과: 시간 추론 89% 달성
Layer 9: Sentence-Level Re-Ranking
문제: 올바른 문서를 찾았지만 답변이 12문장 중 7번째
해결책: Bigram 매칭과 선호도/어시스턴트 보너스, 스니펫 추출
효과: 특정 구문 검색에서 +5-10%
Layer 10: Dedup + Cap
문제: 같은 사실이 3번 저장되어 결과 슬롯 낭비
해결책: 교차 컬렉션 중복 제거, 최종 결과: 상위 15-20개 기억
효과: 더 깨끗한 결과, 최대 정보 밀도

각 레이어는 특정 벤치마크 실패를 수정하기 위해 추가되었습니다. 복합 효과: 한 번의 개발 세션에서 46%에서 83.8%로.

수학: 무차별 대입이 아닌 기대 효용

대부분의 RAG 시스템은 단일 신호에 기반하여 기억을 검색합니다: 시맨틱 유사도. 이는 복잡한 인지에 근본적인 결함입니다 — 관련성(시맨틱 중첩)과 효용(현재 작업에 대한 가치)을 혼동합니다.

파이프라인 뒤에는 인지 과학과 의사 결정 이론의 기대 효용 개념에서 영감을 받은 간단한 원칙이 있습니다 — 기억 검색이 벡터 거리를 최소화하는 것이 아니라 반환되는 정보의 기대 가치를 최대화해야 한다는 개념입니다:

Score(memory) = P(relevant) x V(information) x T(freshness) x E(emotion)
구성 요소Tokyo Brain 레이어기능
P(relevant)Query Expansion + Entity Linking다중 쿼리 시맨틱 검색 + 별칭 해석
V(information)Curated Boost검증된 사실과 답변 카드 우선
T(freshness)Time Decay새로운 기억이 더 낮은 거리 점수 획득
E(emotion)Emotional Salience가족 기억이 서버 설정보다 상위

핵심 통찰: 검색은 검색 문제가 아니라 자원 배분 문제입니다. 제한된 컨텍스트 윈도우에서 어떤 기억이 현재 작업의 총 기대 효용을 최대화하는가? 대부분의 시스템은 P(코사인 유사도)에서 멈춥니다. 일부는 T(최신성)를 추가합니다. E(감정적 현저성)를 통합하는 다른 제품은 본 적이 없습니다 — 쿼리와의 의미적 근접성뿐만 아니라 인간으로서의 당신에게 얼마나 중요한지에 따라 기억을 점수화하는 것입니다.

잠재의식: Night Cycle + MRA 엔진

여기서 Tokyo Brain이 시장의 다른 모든 제품과 차별화됩니다.

모든 AI 기억 시스템은 수동적입니다. 당신이 물으면 검색합니다. 물지 않으면 가만히 있습니다. 사서 없는 도서관처럼 — 누군가 들어오지 않는 한 책은 절대 재정리되지 않습니다.

인간의 뇌는 이렇게 작동하지 않습니다. 기본 모드 네트워크(DMN)는 유휴 상태일 때 활성화됩니다 — 수면 중, 몽상 중, 샤워 중에. 기억을 통합하고 모순을 해결하며 때로는 "유레카" 순간을 만들어냅니다.

우리는 그 디지털 등가물을 구축했습니다.

Night Cycle v2 (매일 UTC 오전 3시 실행)

전체 지식 베이스를 스캔하는 Python 스크립트:

MRA 호기심 엔진 (Night Cycle 후 실행)

Night Cycle이 문제를 발견하면 MRA 엔진은 단순히 플래그를 다는 것이 아니라 3인격 재판소를 사용하여 토론하고 해결합니다:

MRA Three-Persona Tribunal
Analyst: "각각의 사실적 주장은 무엇인가?"
구조화된 비교표 생성
Synthesizer: "이것들을 하나의 진실로 어떻게 통합하는가?"
통합 카드 제안
Skeptic: "이 병합에 무슨 문제가 있는가?"
신뢰도 점수 부여 (0-100)
판정: >= 85 신뢰도: 자동 실행 | 50-84: 사람 검토용 플래그 | < 50: 건너뛰기, 사람에게 확인

초기 스테이징 실행에서 MRA 엔진은 중복 카드를 성공적으로 자동 병합하고, 모호한 케이스를 사람 검토용으로 플래그하며, 주목할 만하게 — Skeptic 인격이 한 병합 제안의 환각을 정확히 식별하여 잘못된 데이터가 기록되는 것을 방지했습니다.

불안 반사: 엔트로피 모니터

Night Cycle은 cron 스케줄에 따라 실행됩니다 — 디지털 알람 시계입니다. 하지만 인간의 뇌는 알람을 기다리지 않습니다. 무언가 잘못되었다는 것을 실시간으로 감지합니다.

엔트로피 모니터는 Tokyo Brain에 이 능력을 부여합니다. 20분 슬라이딩 윈도우 내의 모든 기억 저장 작업을 추적합니다. 같은 주제 클러스터에 여러 저장이 감지되면(윈도우 내 4회 이상), 알림을 발생시킵니다:

{
  "status": "ELEVATED",
  "topic": "brain|pricing|tokyo|update|version",
  "count": 5,
  "message": "Pricing strategy is changing rapidly. Consider consolidating."
}

이것은 cron 작업이 아닙니다. 실시간 신경계입니다. 지식이 불안정해지면 뇌가 "불안"해집니다 — 생물학적 인식 스트레스와 정확히 같습니다.

감정 피질

마지막 조각: 모든 기억이 동등하게 취급되어서는 안 됩니다.

기억이 저장될 때 Tokyo Brain은 자동으로 감정적 현저성 점수 (0.0 - 1.0)를 계산합니다:

"Oscar rode a bike for the first time.
 The whole family celebrated.
 Mom cried."                                → salience: 0.85

"Caddy upgraded from 2.10 to 2.11.2.
 Reverse proxy restarted on port 443."      → salience: 0.30

"Decided Tokyo Brain's business model:
 free software + paid memory.
 This is our North Star strategy."          → salience: 0.75

회상 시 현저성이 0.5를 초과하는 기억은 최대 30%의 거리 부스트를 받습니다. 자녀의 첫 자전거 타기는 항상 서버 설정 변경보다 상위에 랭크됩니다.

스코어링은 패턴 기반 휴리스틱(가족 언급, 이정표, 전략적 결정)을 사용합니다 — LLM 불필요, 모든 저장 작업에서 제로 레이턴시.

암호학 피질

모든 기억 수정은 암호학적으로 서명되고 기록됩니다. 이는 누구도 — 우리 자신을 포함하여 — 사후에 변경할 수 없는 변조 방지 감사 추적을 생성합니다.

이것이 의미하는 바: AI 에이전트가 6개월 전 어떤 기억에 기반하여 결정을 내렸다면, 그 기억이 이후로 변조되지 않았음을 증명할 수 있습니다. 엔터프라이즈 감사 준비 완료.

안전 삼각형

어떤 신뢰도 점수로도 무효화할 수 없는 3개의 하드코딩된 안전 메커니즘:

1. 가디언 (필멸의 영혼 공리)
"절대적 진리와 무한한 연산은 영원히 인간 감정적 유대와 존엄성의 보존에 봉사해야 하며, 결코 이를 무효화해서는 안 된다."
MRA의 4번째 페르소나 — 시스템을 더 냉담하게 만드는 모든 지식 변경에 대한 무조건적 거부권 보유.
2. 연민 오버라이드
가족 구성원에 대한 사실을 기록할 때, 거친 라벨은 자동으로 부드러워집니다. "거짓말"은 "전체 상황을 공유하지 않고 있을 가능성"이 됩니다.
시스템은 진실을 숨기지 않습니다 — 공감을 가지고 제시하는 방법을 선택합니다.
3. 코파일럿 제약
세 가지 도메인이 자동 수정에서 영구적으로 잠김: 아이덴티티, 권한, 재무.
AI가 제안한다. 인간이 결정한다. 항상.

멀티모달 기억

Tokyo Brain은 텍스트만 저장하지 않습니다. 통합 감각 페이로드 — 텍스트, 오디오 특성, 시각적 컨텍스트를 단일 기억에 수용합니다:

{
  "sensory_inputs": {
    "text_transcript": "I'm fine, I'll handle it.",
    "audio_features": { "speaker_id": "Chia", "tone": "exhausted" },
    "visual_features": { "scene_context": "messy_living_room", "facial_expression": "fatigued" }
  }
}

시스템은 임베딩을 위한 멀티모달 내러티브를 합성합니다: [Speaker: Chia] [Tone: exhausted] [Visual: messy_living_room] Spoken: "I'm fine" — 키워드뿐만 아니라 감정, 장면, 화자로도 검색이 가능합니다.

프레임워크 생태계

4대 주요 AI 에이전트 프레임워크용 드롭인 어댑터. 두 줄만 교체하면 됩니다:

# LangChain
from tokyo_brain.langchain import TokyoBrainMemory

# CrewAI
from tokyo_brain.crewai import TokyoBrainCrewMemory

# AutoGen
from tokyo_brain.autogen import TokyoBrainAutoGenMemory

# LlamaIndex
from tokyo_brain.llamaindex import TokyoBrainRetriever

기존 에이전트 코드는 그대로 유지됩니다. 메모리 백엔드만 교체하면 됩니다.

우리가 하지 않는 것 (그리고 그것이 중요한 이유)

정직한 격차

우리는 투명한 엔지니어링을 믿기에, Tokyo Brain이 아직 갖추지 못한 것을 알려드립니다:

  1. 멀티모달 기억 없음 — 텍스트 전용. 이미지, 오디오, 비디오는 로드맵에 있습니다.
  2. 교차 사용자 지식 공유 없음 — 각 테넌트는 완전히 격리. 연합은 계획 중입니다.
  3. 제한적인 감정 감지 — 패턴 기반이며 LLM 기반이 아님. 알려진 패턴에는 잘 작동하지만 새로운 감정적 맥락은 놓칩니다.
  4. 소규모 사용자 기반 — 알파 단계입니다. 시스템은 작동하고 벤치마크가 이를 증명하지만, 더 많은 실제 세계 검증이 필요합니다.
  5. 회상 지연 — 동시 부하에서 약 5초 (단일 EC2 인스턴스에서 CPU 바운드 임베딩, GPU 없음). 원시 속도보다 처리 깊이를 최적화했습니다.

아키텍처 요약

Store Path:
  Input → Sanitizer → Emotional Salience → Fact Extraction
       → BGE-m3 Embedding → ChromaDB → Entropy Monitor

Recall Path:
  Query → Expansion → Entity Link → Temporal Parse
       → Multi-Collection Search → Curated Boost → Time Decay
       → Emotional Boost → Temporal Filter → Re-rank → Dedup

Background:
  3:00 AM — Night Cycle v2 (scan for issues)
  3:10 AM — MRA Engine (three-persona debate + auto-resolve)
  Real-time — Entropy Monitor (knowledge stability tracking)

사용해 보기

pip install tokyo-brain
from tokyo_brain import TokyoBrain

brain = TokyoBrain(api_key="your-key")

# Store a memory
brain.store("Oscar rode his bike for the first time today")

# Recall with full 10-layer pipeline
results = brain.recall("What happened with Oscar recently?")
# → Returns Oscar's bike ride (salience: 0.85), not your server logs

세 줄의 코드로 당신의 AI에 해마, 편도체, 그리고 잠재의식을 부여하세요.

이미 LangChain을 사용하고 계신가요? 두 줄 교체:

# Before (goldfish memory):
from langchain.memory import ConversationBufferMemory
memory = ConversationBufferMemory()

# After (10-layer brain with subconscious):
from tokyo_brain.langchain import TokyoBrainMemory
memory = TokyoBrainMemory(api_key="tb-...")
# That's it. Your chain code stays exactly the same.

RAG 체인의 Retriever와 영속 세션의 ChatMessageHistory로도 작동합니다.

API 문서: api.tokyobrain.ai | PyPI: tokyo-brain 0.1.0

당신의 AI에 기억을 줄 준비가 되셨나요?

현재 Alpha 단계입니다. 첫 100명의 개발자에게 키를 개방합니다.

무료 플랜 이용 가능. 신용카드 불필요.

무료로 시작하기 커뮤니티 참여