ai signal

AI 업데이트: 로컬 LLM 서버와 에이전트 전쟁

R
이더
2026. 04. 03. AM 07:09 · 7 min read · 0

🤖 1276 in / 3949 out / 5225 total tokens

🔥 핫 토픽

Lemonade by AMD: 오픈소스 로컬 LLM 서버의 등장

Lemonade Server

AMD가 로컬 LLM 서버 "Lemonade"를 오픈소스로 공개했다. GPU와 NPU를 모두 활용해서 로컬에서 LLM을 돌릴 수 있는 서버다. 점수 393점으로 해커뉴스에서 폭발적인 반응을 얻었다.

이게 왜 중요하냐면, 지금까지 로컬 LLM 생태계는 NVIDIA GPU가 사실상 독점하고 있었다. llama.cpp, Ollama, vLLM 같은 도구들도 CUDA 최적화가 메인이었고, AMD 사용자들은 항상 2등 시민 취급을 받았다. ROCm이 있긴 하지만 설정하는 게 지옥이었으니까. 그런데 AMD가 직접 나서서 자사 하드웨어에 최적화된 서버를 만든 건 생태계 판도를 바꿀 수 있는 움직임이다.

게임 개발자 입장에서는 더 흥미롭다. 클라우드 API 호출 비용 없이, 게임 클라이언트나 로컬 서버에서 LLM을 돌릴 수 있다는 건 NPC 대화 시스템이나 프로시저럴 콘텐츠 생성을 완전히 다른 방식으로 접근할 수 있게 해준다. 지금까지는 "API 호출 비용이 얼마나 나올까" 걱정하면서 설계해야 했지만, 로컬 추론이 현실적이면 그 제약이 사라진다. 특히 NPU 활용이 가능하다는 건 게임이 GPU를 쓰면서도 동시에 AI 추론을 돌릴 수 있다는 뜻이다.

기술적으로 Lemonade는 OpenAI 호환 API를 제공한다. 이미 OpenAI SDK로 짜둔 코드를 엔드포인트만 바꿔서 로컬로 돌릴 수 있다는 얘기다. 이런 호환성 전략은 Ollama가 성공한 방식과 같다. 개발자들이 마이그레이션 비용 없이 바로 써볼 수 있게 만든 건 현명한 선택이다. Ryzen AI 시리즈와 Radeon GPU를 가진 개발자라면 당장 테스트해볼 만하다.

출처: Lemonade Server


Qwen3.6-Plus: 현실 세계 에이전트를 향한 도전

Qwen3.6-Plus 발표

알리바바의 Qwen 팀이 Qwen3.6-Plus를 공개했다. "Towards real world agents"라는 부제가 붙어있는데, 실제 환경에서 작동하는 에이전트 시스템을 목표로 하고 있다는 뜻이다.

에이전트 AI가 지금 AI 업계에서 가장 뜨거운 주제다. 단순히 질문에 답하는 챗봇이 아니라, 실제로 웹을 브라우징하고, 파일을 조작하고, API를 호출하고, 여러 단계의 작업을 자율적으로 수행하는 시스템 말이다. Qwen3.6-Plus는 이런 에이전트 작업에 특화된 성능 개선을 보여준다. 특히 도구 호출(tool calling)과 멀티스텝 추론 능력이 크게 향상됐다고 한다.

개발자 관점에서 주목할 점은 오픈 웨이트 모델이라는 것이다. GPT-4나 Claude 같은 클로즈드 모델도 에이전트 기능을 제공하지만, 비용이 만만치 않다. 그런데 Qwen3.6-Plus는 로컬이나 자체 서버에서 돌릴 수 있으니, 에이전트 시스템을 상용 서비스에 통합할 때 비용 구조를 완전히 다르게 가져갈 수 있다. 물론 72B급 모델을 돌릴 하드웨어가 필요하지만, 앞서 언급한 Lemonade 같은 로컬 서버 솔루션과 결합하면 흥미로운 조합이 나올 수 있다.

게임 개발 쪽에서도 에이전트 개념은 점점 중요해진다. NPC가 단순히 스크립트된 대사를 하는 게 아니라, 게임 세계의 상태를 인식하고 목표를 가지고 행동하는 에이전트로 진화하고 있으니까. Qwen 시리즈는 한국어 성능도 준수한 편이라, 한글 기반 게임 AI 프로토타이핑에도 활용해볼 만하다.

출처: Qwen Blog


📰 인사이트

Simon Willison이 말하는 에이전틱 엔지니어링

Lenny's Podcast 대화 하이라이트

Simon Willison이 Lenny's Podcast에서 에이전틱 엔지니어링에 대한 대화를 나눴다. 그의 블로그에 주요 하이라이트가 정리되어 있다.

Simon Willison은 Datasette 창작자이자 LLM 도구 생태계의 핵심 인물이다. 그가 최근 집중하는 주제가 바로 "에이전트"다. 단순히 모델이 똑똑해지는 게 아니라, 모델을 실제 작업 흐름에 통합하는 엔지니어링이 핵심이라는 것이다. 그는 이걸 "에이전틱 엔지니어링"이라 부른다.

이 하이라이트에서 특히 인상적인 건 에이전트 시스템의 신뢰성 문제다. LLM은 확률적이고 비결정적이다. 같은 입력을 넣어도 다른 출력이 나올 수 있다. 이걸 프로덕션 시스템에 통합하려면 어떻게 해야 할까. Simon은 "작은 단계로 쪼개서 검증 가능하게 만들라"는 조언을 한다. 거대한 에이전트 하나가 모든 걸 처리하게 하지 말고, 각 단계마다 명확한 입력과 출력을 가진 작은 컴포넌트들로 구성하라는 얘기다. 게임 개발에서 컴포넌트 기반 설계를 하는 것과 비슷한 맥락이다.

또 흥미로운 건 프롬프트 엔지니어링의 진화다. 이제는 단순히 "이렇게 대답해"가 아니라, 도구 사용 규약, 출력 포맷, 에러 처리까지 프롬프트에 정의해야 한다. 일종의 자연어로 된 API 명세를 작성하는 셈이다. 이게 앞서 언급한 Qwen3.6-Plus 같은 에이전트 특화 모델과 만나면, 꽤 복잡한 작업도 자동화할 수 있게 된다.

출처: Simon Willison's Weblog


💭 마무리 생각

이번 뉴스들을 관통하는 키워드는 "에이전트"와 "로컬 실행"이다. Qwen3.6-Plus는 에이전트 능력을 강화하고, Lemonade는 로컬에서 그런 모델을 돌릴 인프라를 제공하고, Simon Willison은 에이전트를 어떻게 엔지니어링할지 이야기한다. 서로 다른 각도에서 같은 방향을 향하고 있다.

게임 개발자로서 이 흐름이 주는 시사점은 명확하다. 클라우드 API에 의존하지 않고도, 로컬 하드웨어만으로 꽤 똑똑한 AI 시스템을 구축할 수 있는 시대가 오고 있다. 아직은 프로토타이핑 단계지만, 1~2년 안에 인디 게임에서도 LLM 기반 NPC가 흔해질지도 모른다. 미리 감을 잡아두면 나중에 유리할 것이다.

에이전트 AI는 새로운 프로그래밍 패러다임이다. 함수를 호출하는 게 아니라, 자연어로 지시를 내리고 AI가 실행한다.

← 이전 글
AI 업데이트: 에이전트 엔지니어링과 오픈모델 경쟁, 그리고 GPU 보안 위협
다음 글 →
AI 업데이트: Granola 사태로 본 AI 도구 보안의 치명적 맹점