🤖
1307 in / 3970 out / 5277 total tokens
📄 논문
DiagramBank: RAG 기반 다이어그램 생성을 위한 대규모 데이터셋
[핵심] AI Scientist 시스템이 논문 수준의 그림을 그리게 만들자.
요즘 자율 AI 연구원(AI Scientist) 시스템이 꽤 화제다. 논문도 쓰고 코드도 실행하는 녀석들. 근데 이 친구들에게는 치명적인 약점이 하나 있다. 바로 '그림'이다. 텍스트는 잘 뽑아내면서도 정작 논문에 들어갈 만한 품질의 다이어그램, 차트, 플로우차트 같은 시각 자료는 형편없이 만든다. 인간 연구자도 논문 쓰는 것보다 Figure 하나 그리는 게 더 골치 아플 때가 많은데, 이걸 AI에게 맡기는 건 쉬운 일이 아니었다.
DiagramBank는 이 문제에 정면으로 대응하는 데이터셋이다. 논문 메타데이터와 함께 대규모 다이어그램 디자인 예시를 구축해뒀고, 이걸 RAG(검색 증강 생성) 파이프라인에 끼워 넣어서 쓸 수 있게 만들었다. 생각해보면 단순하지만 강력한 접근이다. 모델한테 '그림을 잘 그려'라고 하는 게 아니라, '비슷한 상황에서 다른 연구자들은 이런 그림을 썼어'라고 참고 자료를 던져주는 방식이니까. RAG가 텍스트 생성에서 증명한 효과를 시각 생성 쪽으로 확장한 셈이다.
게임 개발 관점에서 보면 이 패턴이 익숙하다. UE5에서 애셋 리퍼런스를 사용할 때, 모든 걸 절차적으로 생성하는 것보다 잘 만들어진 리퍼런스 풀에서 적절한 걸 골라 조합하는 게 더 효율적이니까. DiagramBank도 비슷한 철학이다. 프로시저럴 생성에 레퍼런스 기반 검색을 결합하는 건 게임 엔진에서도 계속 쓰이는 하이브리드 접근법이다.
더 흥미로운 건 이 데이터셋이 '검색'에 최적화되어 있다는 점이다. 단순히 이미지를 모아둔 게 아니라, 논문의 메타데이터(주제, 방법론, 결과 등)와 다이어그램을 연결해뒀다. 이건 결국 '의미 기반 검색'이 가능하다는 뜻이다. 벡터 데이터베이스에 임베딩해두면, 사용자가 '트랜스포머 아키텍처 비교하는 그림 필요해'라고 했을 때 관련 다이어그램들을 정확히 찾아줄 수 있다. RAG 파이프라인 구축 경험이 있는 개발자라면, 이게 얼마나 실용적인지 바로 와닿을 것이다.
다만 한계도 명확하다. 학술 논문에 쓰이는 다이어그램이 주류라서, 게임 기획서나 소프트웨어 아키텍처 다이어그램 같은 산업용 케이스에는 바로 적용하기 어렵다. 하지만 이 패턴 자체는 충분히 전이 가능하다. 게임 개발에서도 '이런 느낌의 UI 레이아웃'이나 '이 장르에 맞는 레벨 디자인 스케치'를 RAG로 검색해서 생성에 활용하는 파이프라인을 구상해볼 수 있다. DiagramBank가 제시한 프레임워크를 도메인에 맞게 변형하는 것만으로도 꽤 쓸 만한 도구가 나올 것이다.
이게 왜 중요한가: AI Scientist가 텍스트만 잘 쓰는 단계를 넘어, 시각적 산출물까지 논문 수준으로 만들 수 있게 되면 연구 자동화의 질이 완전히 달라진다. 그리고 이 '참고 기반 생성' 패턴은 게임, 디자인, 엔지니어링 등 다른 창작 분야에도 그대로 적용할 수 있는 범용적 접근법이다.
출처: HuggingFace Papers - DiagramBank
Memanto: 장기 실행 에이전트를 위한 타입드 시맨틱 메모리
[핵심] 상태 없는 LLM 추론에서 지속 가능한 멀티세션 에이전트로 넘어가는 데 메모리가 핵심 병목이다.
LLM을 단발 질문응답에서 벗어나 '에이전트'로 쓰려면 메모리가 필수다. 근데 이 메모리가 생각보다 어렵다. 그냥 대화 내역을 전부 컨텍스트 윈도우에 쑤셔 넣으면? 금방 토큰 리밋에 걸린다. 중요한 것만 요약해서 저장하면? 요약 과정에서 정보가 손실된다. 벡터 DB에 임베딩해서 의미 검색하면? 비슷한 정보는 잘 찾지만 정확한 팩트 조회에는 약하다. Memanto는 이 딜레마를 '타입드 시맨틱 메모리(Typed Semantic Memory)'와 '정보이론적 검색(Information-Theoretic Retrieval)'이라는 두 가지 축으로 공격한다.
먼저 타입드 시맨틱 메모리가 뭔가. 일반적인 벡터 스토어는 모든 걸 평탄하게 임베딩 벡터로 만들어서 저장한다. '키-값'도, '인과관계'도, '절차적 지식'도 전부 같은 공간에. Memanto는 메모리에 타입을 부여한다. 이건 게임 개발자에게는 당연한 개념이다. UE5에서도 int, float, FString, UObject 포인터를 구분해서 쓰지 않나. 메모리도 마찬가지다. '사실(fact)'은 스칼라 값처럼, '절차(procedure)'는 함수 포인터처럼, '인과(causal)'는 이벤트 디스패처처럼 타입을 나눠서 저장하고 조회하는 게 훨씬 효율적이다. 타입이 있으면 검색 공간도 좁아지고, 메모리 사용 패턴도 예측 가능해진다.
정보이론적 검색은 더 흥미롭다. 보통 RAG에서는 코사인 유사도 같은 걸로 '질문과 얼마나 비슷한가'를 측정한다. 근데 Memanto는 '이 메모리가 현재 의사결정에 얼마나 많은 정보를 제공하는가'를 정보이론(Information Theory) 관점에서 측정한다. 쉽게 말해, 단순히 '관련 있는' 메모리가 아니라 '결정에 도움이 되는' 메모리를 우선적으로 가져오는 셈이다. 이건 게임 AI에서도 중요한 개념이다. NPC가 모든 기억을 동등하게 처리하지 않고, 현재 상황에서 의사결정에 가장 영향을 미칠 과거 경험을 우선 참고하는 것이 훨씬 자연스러운 행동으로 이어진다.
프로덕션 관점에서 특히 주목되는 건 '장기 실행(long-horizon)'이라는 키워드다. 게임 서버가 24시간 돌듯이, 에이전트도 세션을 넘나들며 지속적으로 작동해야 하는 상황이 점점 많아지고 있다. 고객 지원 봇, 개인 비서, 코드 리뷰 에이전트 등. 이때 메모리 관리이 실패하면 에이전트는 같은 실수를 반복하거나, 중요한 맥락을 잊어버리거나, 토큰을 낭비하게 된다. Memanto의 접근은 이런 프로덕션 환경의 실제 문제를 겨냥하고 있다.
앞서 다룬 DiagramBank와도 연결되는 지점이 있다. DiagramBank가 RAG의 '검색 대상(무엇을 저장할까)'에 집중했다면, Memanto는 RAG의 '검색 방식(어떻게 찾을까)'을 개선한다. 둘 다 결국 '에이전트가 필요한 정보를 제때 정확하게 가져오는' 문제를 다루고 있고, 각자 다른 레이어에서 접근하고 있다. 이 두 논문의 아이디어를 합치면, 타입 기반으로 정리된 메모리 저장소에서 정보이론적 기준으로 검색하는, 꽤 정교한 에이전트 아키텍처가 나올 수 있다.
서버 아키텍처 감각으로 비유하자면, Memanto는 인메모리 캐시에 TTL과 타입을 붙여서 관리하는 것과 비슷하다. 모든 데이터를 DB에 넣고 매번 쿼리 날리는 건 비효율적이니까, 자주 쓰는 건 타입별로 캐시에 올려두고, 캐시 적중률을 정보이론적으로 최적화하는 느낌. 게임 서버 개발자라면 이 비유가 바로 이해될 것이다.
이게 왜 중요한가: 에이전트 시스템의 성숙도는 메모리 아키텍처에 달려 있다. 단순히 LLM을 부르는 것만으로는 '에이전트'가 아니고, 지속적으로 학습하고 맥락을 유지하는 메모리 시스템이 있어야 진짜 자율 에이전트가 된다. Memanto는 이 메모리 문제를 타입 시스템과 정보이론이라는 두 가지 실체화 가능한 프레임워크로 풀어냈다는 점에서 의미 있다. 사이드 프로젝트로 에이전트 만들고 있는 입장에서 당장 참고할 만한 구체적 인사이트가 많다.
출처: HuggingFace Papers - Memanto
🔗 두 논문을 관통하는 키워드: 검색의 정밀도
DiagramBank와 Memanto, 표면적으로는 전혀 다른 문제를 푸는 것처럼 보인다. 하나는 시각 자료 생성이고, 다른 하나는 에이전트 메모리 관리다. 하지만 둘 다 핵심적으로 푸는 문제는 같다. '에이전트가 필요한 정보를 정확하게 찾아오는 것'이다.
DiagramBank는 검색 대상을 구조화된 메타데이터와 함께 제공해서 검색의 정밀도를 높인다. '이런 종류의 논문에는 이런 스타일의 다이어그램이 어울린다'는 걸 데이터로 제공하는 셈이다. Memanto는 검색 기준 자체를 정보이론적으로 재정의해서, 단순한 유사도가 아니라 의사결정에 미치는 정보량을 기준으로 삼는다.
이걸 게임 개발에 빗대면 이렇다. 게임에서도 '적절한 리소스를 적절한 타이밍에 가져오는' 문제가 반복된다. AI가 적절한 애니메이션을 찾아오는 것도, 레벨 스트리밍이 필요한 섹터를 판단하는 것도, NPC가 과거 경험에서 적절한 기억을 꺼내오는 것도. 결국 다 '검색' 문제다. 이 두 논문이 제시하는 접근법—메타데이터 기반 구조화와 정보량 기반 검색—은 게임 AI, 특히 동적 내러티브나 적응형 NPC 같은 영역에서도 충분히 응용할 수 있는 프레임워크다.
에이전트의 진화는 '생성 능력'보다 '검색 능력'에 달려 있다. 뭘 만들까가 아니라 뭘 참고할까가 문제다.