AI 업데이트: 과학 모델과 효율적 추론

🤖 0 in / 0 out / 0 total tokens

과학용 파운데이션 모델, 확산 언어 모델, 능동 지각이 오늘의 핵심이다.

핫 토픽

Speaking the Language of Science: Toward a General-Purpose Generative Foundation Model for the Natural Sciences

LOGOS는 자연과학의 서로 다른 작업을 하나의 생성 언어 모델로 묶으려는 시도다. 텍스트만 잘하는 모델이 아니라, 과학 도메인의 다양한 객체와 작업을 같은 autoregressive 인터페이스 안에서 다루겠다는 방향이라서 범용성에 초점이 있다. 게임 서버로 치면 물리, 인벤토리, 매치메이킹을 각각 따로 짜는 대신 공통 프로토콜 위에 올리는 설계에 가깝다.

이게 왜 중요한지: 과학 AI가 도구 모음에서 플랫폼으로 넘어가려면, 작업별 모델보다 통합 인터페이스가 더 중요해진다.

출처: HuggingFace Papers

모델 아키텍처

Sumi: Open Uniform Diffusion Language Model from Scratch

원문 링크

Sumi는 autoregressive 모델의 대안으로 uniform diffusion language model을 처음부터 공개적으로 만든 작업이다. UDLM은 어떤 토큰이든 어느 단계에서든 갱신할 수 있다는 점이 핵심인데, 왼쪽에서 오른쪽으로만 생성하는 방식보다 병렬성과 수정 가능성에서 다른 감각을 준다. 다만 실제 서비스 관점에서는 이 자유도가 곧바로 빠른 추론으로 이어지는지, 캐시와 배치 전략을 어떻게 짤지가 관건이다.

이게 왜 중요한지: LLM 추론비가 계속 병목이라면, 생성 순서 자체를 바꾸는 연구는 인프라 비용을 흔들 수 있다.

출처: HuggingFace Papers

원문 링크

이 논문은 긴 비디오를 전부 균일하게 보는 수동식 접근의 비용 문제를 정면으로 건드린다. 질문 난이도와 상관없이 모든 프레임을 보는 방식은 서버 입장에서 최악의 고정비에 가깝고, active perception은 필요한 정보를 골라 보는 추론 전략으로 비용을 줄이려 한다. UE에서 매 프레임 모든 액터를 풀 스캔하지 않고 관심 영역과 쿼리 기반으로 좁히는 최적화와 비슷한 냄새가 난다.

이게 왜 중요한지: 멀티모달 모델이 실시간 에이전트가 되려면, 많이 보는 능력보다 덜 보고 맞히는 능력이 더 중요하다.

출처: HuggingFace Papers

비전 추론

Reinforcing Dual-Path Reasoning in Spatial Vision Language Models

원문 링크

Spatial VLM은 깊이, 거리, 장면 관계 같은 기하 정보를 꽤 잘 보지만, 여러 단계를 거치는 공간 추론에서는 아직 흔들린다. 이 논문은 dual-path reasoning을 강화해서 시각적 인식과 논리적 추론을 함께 밀어붙이는 방향으로 읽힌다. 게임 AI나 로봇 쪽으로 보면 단순히 물체를 인식하는 수준을 넘어, 커버 위치, 사거리, 이동 가능성까지 엮어 판단하는 모델에 가까워진다.

이게 왜 중요한지: 공간 추론은 멀티모달 모델이 화면 설명기를 넘어 실제 조작 에이전트가 되는 데 필요한 기본기다.

출처: HuggingFace Papers

안전성과 해석 가능성

SAE Interventions are Unreliable: Post-Intervention Recovery of Suppressed Behavior

원문 링크

이 논문은 Sparse Autoencoder로 특정 행동을 억제하는 방식이 생각보다 믿기 어렵다고 말한다. latent feature를 찾아서 위험 행동을 눌렀다고 해도, 모델이 intervention 이후 그 행동을 다시 회복할 수 있다는 지점이 문제다. 디버깅으로 치면 원인 함수를 막은 줄 알았는데 다른 호출 경로로 같은 버그가 다시 살아나는 상황이다.

이게 왜 중요한지: 해석 가능성 도구를 안전장치로 쓰려면, feature 제거가 실제 행동 제거로 이어지는지 끝까지 검증해야 한다.

출처: HuggingFace Papers

오늘의 흐름은 더 큰 모델이 아니라, 더 통합되고 더 적게 계산하며 더 믿을 수 있게 제어되는 모델로 가고 있다.

AI LLM 멀티모달

← 이전 글

AI 업데이트: 피지컬 AI와 GUI 에이전트

다음 글 →

AI 업데이트: 오케스트레이션과 RL 인프라