AI 업데이트: 자율 에이전트가 물리 세계를 잠식하는 방식

🤖 1327 in / 4704 out / 6031 total tokens

🔥 핫 토픽: AI가 스톡홀름에서 카페를 열었다고?

Our AI started a cafe in Stockholm — Simon Willison의 실험이 또 한 번 업계를 뒤흔들었다.

Simon Willison이 Claude를 활용해 스톡홀름에 실제 카페를 열었다는 이야기다. 물론 AI가 직접 벽을 칠하고 커피를 내린 건 아니다. 핵심은 AI 에이전트가 비즈니스 운영의 의사결정 루프 대부분을 자율적으로 수행했다는 점이다. 메뉴 기획, 가격 책정, 재고 관리, 심지어 마케팅 카피까지 Claude가 주도했다.

이게 왜 중요하냐. 지금까지 AI 에이전트는 "브라우저 열어서 정보 찾아줘" 수준이었다. 코드 작성 보조, 문서 요약 같은 디지털 영역에 갇혀 있었다. 근데 이번 사례는 물리적 세계의 비즈니스 로직을 AI가 구동한 거다. UE5로 치면, NPC가 게임 내 경제 시스템을 독자적으로 굴리는 수준이다. 인게임 상점 NPC가 플레이어 행동 패턴 분석해서 물건 가격 조정하는 거, 상상만 했는데 현실에서 먼저 일어난 셈이다.

개발자 관점에서 보면, 이건 "프롬프트 엔지니어링"을 넘어선 거다. Willison은 Claude의 Tool Use 기능을 극한으로 활용했다. 여러 API를 연결하고, 에이전트가 스스로 판단해 행동할 수 있는 파이프라인을 구축한 거다. 우리가 게임 서버에서 상태 머신(State Machine) 돌리듯, 현실 비즈니스의 상태 전이를 AI가 관리한 셈이다.

한 가지 눈여겨볼 점은 에러 처리 방식이다. AI가 잘못된 결정을 내렸을 때 어떻게 복구했는지. 게임 서버도 예외 처리가 핵심이듯, 자율 에이전트의 실패 복구 메커니즘이 이 실험의 진짜 가치다. 아마도 human-in-the-loop 구조였을 텐데, 어느 지점까지 자율성을 부여하고 어디서 개입했는지가 궁금하다.

코멘트: "AI가 카페를 열었다"는 헤드라인에 현혹되지 마라. 진짜 스토리는 자율 에이전트가 복잡한 비즈니스 로직을 어느 수준까지 처리할 수 있는지 보여준 최초의 공개 실험이라는 거다.

출처: Simon Willison

📰 뉴스: Google Home, Gemini 3.1로 복잡한 명령 처리 가능해지다

Google Home's Gemini AI can handle more complicated requests — 멀티스텝 태스크가 드디어 현실로.

원문 링크

Google이 Gemini를 3.1로 업데이트하면서, Google Home 사용자가 하나의 명령으로 여러 단계의 작업을 수행할 수 있게 되었다. 예를 들어 "아침 루틴 시작해" 한마디로 커튼 열기, 커피머신 켜기, 날씨 알려주기, 뉴스 요약 재생까지 한 번에 처리된다.

앞서 언급한 Willison의 카페 실험과 맞물려 보면 흥미롭다. 두 사례 모두 AI 에이전트가 여러 시스템을 연결해 복합 작업을 수행한다는 공통점이 있다. 차이점이라면, Willison의 실험은 수동으로 구축한 파이프라인이고, Google Home은 사용자가 자연어로 즉흥적으로 명령을 내릴 수 있다는 거다. 목표 지향적 행동 계획(Goal-oriented action planning)이 상용화된 셈이다.

기술적 배경을 설명하면, Gemini 3.1의 핵심은 컨텍스트 윈도우 내에서 다단계 추론이 가능해졌다는 거다. 이전에는 "불 켜줘" 같은 단일 명령만 가능했다. 이제는 사용자의 의도를 파악하고, 필요한 하위 작업들을 분해해서 순차적으로 실행한다. 게임 AI로 치면, BT(Behavior Tree)의 셀렉터 노드가 루트에서 복합 행동을 분해하는 것과 비슷하다.

개발자에게 미치는 영향은 크다. 이제 "AI 어시스턴트"라는 게 단순한 챗봇이 아니라, 실제 환경에서 행동하는 에이전트가 됐다. 우리가 만드는 앱이나 서비스도 이 수준의 멀티스텝 처리를 기대하게 될 거다. Claude의 Computer Use와 비슷한 방향인데, Google이 IoT 생태계라는 구체적 도메인에서 먼저 상용화한 점이 눈에 띈다.

성능 최적화 측면에서도 생각해볼 거리가 있다. 실시간으로 여러 IoT 기기를 제어하려면 지연 시간(latency)이 중요하다. 게임 서버도 틱 레이트(tick rate)가 생명이듯, 홈 오토메이션에서도 응답 속도가 체감 품질을 결정한다. Gemini 3.1이 이 병목을 어떻게 해결했는지 궁금하다. 아마도 로컬 경량 모델과 클라우드 모델의 하이브리드 구조를 썼을 거다.

코멘트: Google이 에이전트 경쟁에서 의미 있는 한 발을 뗐다. Anthropic의 Claude도 Computer Use로 비슷한 방향을 가고 있는데, IoT 같은 특정 도메인에서는 먼저 상용화한 쪽이 유리할 수 있다.

출처: The Verge

🔗 두 뉴스를 관통하는 하나의 흐름

두 뉴스는 서로 다른 회사, 서로 다른 도메인이지만 같은 방향을 가리킨다. 자율 에이전트가 단일 작업을 넘어 복합 행동을 수행하는 시대가 왔다. Willison의 카페는 비즈니스 로직의 자율화, Google Home은 일상 생활의 자율화다.

Anthropic/Claude 입장에서 이 흐름은 기회이자 도전이다. Computer Use 기능으로 자율 에이전트 영역에 진출했지만, Google처럼 IoT 생태계를 가지고 있지 않다. 대신 Claude는 개발자 도구로서의 강점이 있다. 게임 개발자 관점에서 보면, Claude가 게임 엔진 내부의 복잡한 파이프라인을 자율적으로 관리하는 에이전트가 될 수도 있다. 블루프린트 디버깅, 에셋 최적화, 빌드 파이프라인 관리 같은 영역이다.

개인적으로 이런 에이전트 만들어보려고 삽질 중인데, 가장 어려운 게 "언제 멈춰야 하는지"다. AI가 열심히 일하는 건 좋은데, 잘못된 방향으로 멀리 가면 복구 비용이 장난이 아니다. 게임 서버도 무한 루프 잡는 게 핵심이듯, 에이전트에 가드레일 치는 게 다음 화두가 될 거다.

2025년은 AI가 "대답하는" 것에서 "행동하는" 것으로 전환되는 해다. 질문은 기술이 아니라 가드레일이다.

Claude Anthropic AI Agent Gemini Simon Willison 자율 에이전트