🤖
0 in / 0 out / 0 total tokens
멀티모달 모델의 다음 병목은 더 큰 모델이 아니라 기억, 물리 일관성, 장기 의사결정이다.
평가가 바뀌는 지점
Beyond the Current Observation: Evaluating Multimodal Large Language Models in Controllable Non-Markov Games
현재 관측만 보고 행동하는 모델은 게임 루프 안에서 금방 한계가 드러난다. 이 논문은 이전에 봤지만 지금 화면에는 없는 정보를 조건으로 행동해야 하는 controllable non-Markov game 환경에서 멀티모달 LLM을 평가한다. UE에서 AI 폰을 짜다 보면 perception 컴포넌트보다 blackboard와 memory 설계가 더 중요해지는 순간이 있는데, 딱 그 문제를 벤치마크로 끌어낸 느낌이다.
이게 왜 중요한지: 에이전트가 실제 제품에 들어가려면 현재 프레임 추론보다 상태 추적 능력이 먼저 검증되어야 한다.
Physics-IQ Verified
비디오 생성 모델이 단순 생성기를 넘어 월드모델로 쓰이려면 물리 감각을 검증해야 한다. 이 작업은 video generative model이 다운스트림 작업과 world modeling에 쓰이는 흐름에서 물리적 추론을 어떻게 평가할지 다룬다. 게임 개발자 입장에서는 보기 좋은 영상보다 충돌, 관성, 접촉 같은 룰이 얼마나 일관적인지가 더 중요하다.
이게 왜 중요한지: 월드모델이 물리를 틀리면 시뮬레이션 비용을 줄이는 게 아니라 디버깅 비용을 폭발시킨다.
월드모델과 로보틱스
PAIWorld: A 3D-Consistent World Foundation Model for Robotic Manipulation
기존 월드 파운데이션 모델은 주로 단일 시점에 강했고, 로봇 조작에 필요한 멀티뷰 3D 일관성이 부족했다. PAIWorld는 로보틱 manipulation을 위해 3D-consistent world foundation model을 지향한다. 이건 렌더링에서 한 카메라만 그럴듯한 장면과 실제 게임 월드 상태가 일치하는 장면의 차이와 비슷하다.
이게 왜 중요한지: 로봇은 이미지 한 장을 보고 움직이는 캐릭터가 아니라, 같은 물체를 여러 시점에서 같은 물체로 이해해야 하는 물리 액터다.
장기 에이전트
CEO-Bench: Can Agents Play the Long Game?
요즘 에이전트는 소프트웨어 엔지니어링이나 고객 지원처럼 짧은 태스크 실행에는 꽤 능숙해지고 있다. CEO-Bench는 그런 단발성 실행을 넘어 장기 의사결정, 누적 결과, 전략적 선택을 평가하려는 벤치마크다. 서버 운영으로 치면 한 요청을 빨리 처리하는 것과 한 시즌 전체의 경제 밸런스를 망치지 않는 것은 완전히 다른 문제다.
이게 왜 중요한지: 실무 에이전트의 가치는 명령 수행 속도가 아니라 긴 시간 동안 목표를 잃지 않는 운영 능력에서 나온다.
AI 과학자와 검증 루프
Externalizing Research Synthesis and Validation in AI Scientists through a Research Harness
AI가 과학 워크플로를 자동화할수록 문제는 결과물이 아니라 근거 연결이다. 이 논문은 선행 연구, 생성된 아이디어, 실험, 최종 주장 사이의 추론을 모델 내부에 숨기지 않고 research harness로 외부화하려는 접근을 다룬다. 솔직히 자동화 파이프라인에서 가장 무서운 버그는 실패가 아니라 그럴듯하게 틀린 성공 로그다.
이게 왜 중요한지: AI 연구 자동화는 더 많은 실험을 돌리는 것보다 검증 가능한 추론 체인을 남기는 쪽이 먼저다.
AI 에이전트의 다음 경쟁력은 더 많이 보는 능력이 아니라, 본 것을 기억하고 물리적으로 맞게 굴리며 오래 버티는 능력이다.