AI 업데이트: 인터랙션 모델의 등장과 경쟁 구도 재편

🤖 1275 in / 3710 out / 4985 total tokens

Mira Murati가 Thinking Machines Lab이라는 새로운 AI 회사를 세우고 '인터랙션 모델(Interaction Models)'이라는 개념을 발표했다. 전 OpenAI CTO가 만든 회사가 내세우는 이 새로운 접근 방식은 기존 언어 모델의 한계를 직접적으로 건드리는 시도다. Claude, GPT, Gemini 같은 기존 모델들과 어떻게 다른지, 왜 이게 업계에서 꽤나 흥미로운 움직임인지 파헤쳐보자.

🔥 핫 토픽: Mira Murati의 Thinking Machines Lab

인터랙션 모델이 뭔데?

Thinking Machines Lab 발표

Mira Murati가 이끄는 Thinking Machines Lab이 '인터랙션 모델'이라는 새로운 AI 패러다임을 제시했다. 핵심 아이디어는 단순하다. 기존 언어 모델이 텍스트를 받아서 텍스트를 출력하는 '턴 기반(turn-based)' 상호작용에 갇혀 있다면, 인터랙션 모델은 실시간으로 사용자와 주고받으며 맥락을 지속적으로 이해하는 방식이다. 게임 개발자에게 익숙한 비유를 하자면, 기존 챗봇이 턴제 RPG라면 인터랙션 모델은 실시간 액션 RPG에 가깝다.

이게 왜 중요하냐면, 현재 Claude나 ChatGPT를 쓸 때 느끼는 답답함의 상당 부분이 바로 이 '턴 기반' 구조에서 온다. 질문을 던지고 기다리고, 답을 받고, 다시 질문을 수정하고... 이 사이클이 끊기면 맥락이 깨진다. 특히 복잡한 코딩 작업을 할 때, 실시간으로 모델이 내 의도를 파악하고 피드백을 주면 작업 흐름이 완전히 달라질 것이다. Unreal Engine에서 Live Coding으로 실시간으로 코드 수정 결과를 보는 것과, 매번 빌드를 다시 해야 하는 것의 차이와 비슷하다.

기술적 배경을 조금 더 설명하면, 현재 대부분의 LLM은 '요청-응답' 아키텍처로 동작한다. 사용자 입력이 들어오면 모델이 추론을 시작하고, 완성된 응답을 반환한다. 스트리밍이 있다고는 하지만, 결국은 같은 구조에서 토큰을 조금씩 보여주는 것뿐이다. 반면 인터랙션 모델은 사용자의 입력이 진행 중일 때도 실시간으로 처리하고, 멀티모달 입력(음성, 제스처, 시선 등)을 동시에 다루며, 대화의 '상태'를 유지하는 구조를 목표로 한다. 서버 아키텍처 관점에서 보면, stateless한 REST API 호출에서 WebSocket 기반의 양방향 통신으로 넘어가는 것과 비슷한 전환이다.

개발자에게 이게 의미하는 바는 꽤 크다. 지금 우리가 AI 어시스턴트를 '도구'로 쓰는 방식이 '파트너'와 협업하는 방식으로 바뀔 수 있다. 예를 들어, 코드를 작성하면서 동시에 AI가 내 타이핑 패턴, 이전 수정 이력, 현재 프로젝트 구조를 종합적으로 분석해서 실시간으로 제안을 줄 수 있다. 이건 단순히 UX 개선이 아니라, AI를 활용하는 개발 워크플로우 자체를 재설계하는 수준이다.

물론 회의적인 시각도 있다. '인터랙션 모델'이라는 용어가 마케팅에 가깝다는 지적도 있고, 실제로 구현이 얼마나 가능할지는 두고 봐야 한다. 하지만 Murati의 이력을 보면 무시하기 어렵다. OpenAI에서 GPT-4, DALL-E, Whisper 등을 실제로 출시까지 이끈 사람이다. 연구만 하는 학자가 아니라 제품을 만드는 엔지니어다. 그런 사람이 '인터랙션'을 핵심으로 잡았다는 건, 기술적 장벽을 어느 정도 극복 가능하다고 판단했다는 뜻이다.

Anthropic 관점에서 보면, 이건 Claude의 '컴퓨터 사용(Computer Use)' 기능과 맞물려 생각해볼 부분이다. Anthropic도 Claude를 단순한 챗봇이 아니라 '에이전트'로 발전시키려 하고 있고, Thinking Machines Lab도 비슷한 방향을 향해 가고 있다. 결국 업계 전체가 '턴 기반 챗봇'에서 '실시간 에이전트'로 넘어가는 전환점에 있다는 뜻이다.

💡 분석: Anthropic 생태계에 미치는 영향

경쟁 구도가 어떻게 바뀌나

당장 Thinking Machines Lab이 Claude를 위협할 정도는 아니다. 제품도 안 나왔고, 연구팀 규모도 Anthropic이나 OpenAI에 비하면 작다. 하지만 인재 유동성 측면에서는 주목할 만하다. Murati는 OpenAI에서 핵심 인재들을 데리고 나왔고, Thinking Machines Lab에도 top-tier 연구자들이 모이고 있다. Anthropic 입장에서는 인재 확보 경쟁이 한층 치열해지는 셈이다.

더 흥미로운 건 '인터랙션'이라는 방향성이 Anthropic의 'Constitutional AI' 철학과 만나는 지점이다. Claude는 안전성과 정렬(alignment)을 강조하지만, 실시간 상호작용이 늘어날수록 안전성 확보가 기하급수적으로 어려워진다. 사용자가 입력하는 도중에 이미 모델이 반응하기 시작하면, 유해한 출력을 사전에 차단하는 메커니즘을 어떻게 설계할 것인가? 이건 Anthropic이 앞으로 풀어야 할 기술적 과제이기도 하다.

실무 관점에서 보면, 인터랙션 모델이 상용화되면 개발자들은 새로운 API 패턴을 학습해야 할 것이다. 지금은 OpenAI API나 Anthropic API나 기본적으로 HTTP 요청-응답 구조다. 하지만 실시간 상호작용이 되면 WebSocket이나 Server-Sent Events, 심지어는 새로운 프로토콜이 필요할 수 있다. 게임 서버 개발 경험이 있는 나로서는 이게 꽤 흥미롭다. 실시간 멀티플레이어 게임에서 상태 동기화(state synchronization)와 입력 처리(input handling)를 어떻게 하느냐가 핵심인데, AI 모델에서도 비슷한 문제가 발생할 것이다.

🔮 전망: 개발자는 무엇을 준비해야 하나

당장 뭔가를 바꿔야 하는 건 아니다. 하지만 몇 가지는 눈여겨보는 게 좋다.

첫째, '에이전트' 아키텍처에 익숙해져라. 단순한 프롬프트 엔지니어링을 넘어서, AI 모델이 도구를 사용하고 외부 시스템과 상호작용하는 패턴을 이해해야 한다. Claude의 Computer Use, OpenAI의 Function Calling 같은 기능들이 그 전초전이다.

둘째, 실시간 처리에 대한 감각을 키워라. 게임 개발자는 이미 이게 몸에 배어 있지만, 웹/백엔드 개발자들은 익숙하지 않을 수 있다. 비동기 처리, 스트리밍, 상태 관리 이런 것들이 AI 애플리케이션 개발에서도 핵심 기술이 될 것이다.

셋째, 멀티모달 입력을 고려하기 시작해라. 텍스트만 처리하는 시대가 점점 끝나가고 있다. 음성, 이미지, 영상, 심지어 제스처까지 입력으로 받는 AI 시스템이 곧 일상이 될 것이다. 이건 UI/UX 설계뿐만 아니라, 백엔드 데이터 파이프라인 설계까지 영향을 미친다.

결국 핵심은 'AI와 어떻게 소통할 것인가'다. 모델이 똑똑해지는 것도 중요하지만, 그 똑똑함을 어떻게 실시간으로 끌어다 쓸 것인지가 다음 전장이다.

출처: The Verge - Here's what Mira Murati's AI company is up to

Claude Anthropic InteractionModels MiraMurati ThinkingMachinesLab AI Agent Real-time AI