ai signal

AI 업데이트: 에이전트 엔지니어링과 오픈모델 경쟁, 그리고 GPU 보안 위협

R
이더
2026. 04. 03. AM 06:27 · 9 min read · 0

🤖 1419 in / 4985 out / 6404 total tokens

🔥 핫 토픽

에이전트 엔지니어링에 대한 Simon Willison의 통찰

Simon Willison이 Lenny's Podcast에서 에이전트 엔지니어링에 대해 이야기했다. 에이전트라는 개념이 AI 업계에서 가장 뜨거운 주제인 이유는 단순하다. 모델이 스스로 도구를 사용하고 연속적으로 작업을 수행할 수 있게 되면서, 소프트웨어 개발의 패러다임 자체가 바뀌고 있기 때문이다. Willison은 에이전트 시스템을 구축할 때 가장 중요한 것은 "신뢰할 수 있는 도구 호출 루프"라고 강조한다. 모델이 적절한 시점에 적절한 도구를 호출하고, 그 결과를 해석해서 다음 행동을 결정하는 이 사이클이 안정적으로 돌아가야 실제 프로덕션에서 쓸 수 있는 에이전트가 된다.

게임 개발자 관점에서 보면 이건 UE5의 Gameplay Ability System(GAS)과 닮아 있다. 어빌리티가 발동되고, 태스크가 실행되고, 콤보가 연결되는 구조랑 에이전트의 사고-행동 루프가 본질적으로 같다. 차이가 있다면 GAS는 개발자가 모든 분기를 미리 정의하지만, 에이전트는 모델이 상황에 따라 분기를 스스로 결정한다는 점이다. 이게 양날의 검이다. 유연성은 극대화되지만, 예측 불가능성도 함께 온다.

Anthropic이 Claude를 에이전트 워크플로우에 최적화하는 전략을 취하고 있는 이유가 여기에 있다. Tool Use, Computer Use 같은 기능을 점진적으로 강화하면서, 에이전트로서의 신뢰성을 쌓아가는 중이다. 경쟁사들이 화려한 데모를 보여줄 때 Anthropic은 "안정적으로 작동하는 에이전트"에 집중하는 인상이다. 개발자로서 이게 더 매력적이다. 한 번 폭주하는 에이전트보다, 90% 확률로 올바르게 작동하는 에이전트가 실용적 가치가 높다.

Willison이 언급한 또 다른 핵심은 평가(Evaluation)의 어려움이었다. 에이전트는 비결정적이기 때문에 전통적인 유닛 테스트로 검증이 불가능하다. 이건 게임 개발에서 플레이어 행동을 예측할 수 없는 것과 같다. 결국 시뮬레이션을 돌려 통계적으로 검증하는 수밖에 없는데, 이게 에이전트 개발 비용의 상당 부분을 차지하게 될 것이다.

출처: Simon Willison


📰 뉴스

Gemma 4: 바이트 단위로 가장 강력한 오픈 모델 등장

Google이 Gemma 4를 공개하면서 오픈 모델 경쟁의 새로운 기준을 세웠다. "바이트 단위로 가장 강력한 오픈 모델"이라는 표현이 과장처럼 들릴 수 있지만, 벤치마크를 보면 설득력이 있다. 동일 파라미터 대비 경쟁 모델들을 상당한 차이로 앞서고 있고, 특히 코드 생성과 추론 작업에서 강점을 보인다. 중요한 건 이게 완전한 오픈 웨이트라는 점이다. 상업적 사용도 가능하고, 파인튜닝도 자유롭다.

이게 Claude 사용자인 나에게 왜 중요할까. 바로 로컬 실행이 가능한 대안이 생겼다는 것이다. Claude API는 훌륭하지만 비용이 누적된다. 프로토타이핑 단계에서 Gemma 4를 로컬에서 돌리고, 최종 검증이나 고복잡도 작업에 Claude를 쓰는 하이브리드 접근이 가능해진다. 개발 서버에 4090 하나 달아두면 24GB VRAM으로도 충분히 돌릴 수 있는 모델이 있다는 건 큰 숨통이다.

기술적으로 흥미로운 점은 Gemma 4의 아키텍처 최적화다. Mixture of Experts를 효율적으로 적용해서 추론 시 활성 파라미터 수를 줄이면서도 전체 용량을 키웠다. 이건 게임 엔진의 LOD 시스템과 비슷한 발상이다. 복잡한 장면에서는 풀 디테일을 쓰고, 간단한 장면에서는 가벼운 버전을 쓰는 것처럼, 입력 난이도에 따라 모델이 자동으로 리소스를 조절한다.

Anthropic이 오픈 웨이트를 공개하지 않는 전략을 유지하는 이유는 이해한다. 안전성 검증과 상용 서비스 품질 유지 측면에서 합리적이다. 하지만 개발자 입장에서는 선택지가 다양할수록 좋다. Gemma 4 같은 강력한 오픈 모델이 등장하면, Anthropic도 Claude의 가격 경쟁력이나 기능 차별화를 더 고민하게 될 것이다. 결국 소비자인 우리에게 이득이다.

출처: Simon Willison

llm-gemini 0.30: CLI에서 Gemini를 쓰는 가장 깔끔한 방법

Simon Willison의 llm-gemini 플러그인이 0.30 버전으로 업데이트됐다. llm은 터미널에서 다양한 LLM을 호출할 수 있게 해주는 도구인데, 이 플러그인을 통해 Google의 Gemini 모델들을 깔끔하게 쓸 수 있다. 0.30 버전에서는 새로운 Gemini 모델 지원과 함께 스트리밍 응답 처리가 개선됐다. CLI 환경에서 실시간으로 응답이 흘러나오는 걸 볼 수 있어서 체감 속도가 훨씬 좋다.

이 도구의 가치는 통합 인터페이스다. Claude, GPT, Gemini, Llama, 이제 Gemma까지 하나의 CLI 도구로 접근할 수 있다. 모델마다 다른 API 클라이언트를 익힐 필요 없이, llm 호출 하나로 모든 걸 커버한다. 스크립트 자동화할 때 특히 편하다. 게임 빌드 파이프라인에 LLM 기반 코드 리뷰를 통합한다고 치면, llm으로 모델만 스위칭하면서 A/B 테스트가 가능하다.

Anthropic도 자체 CLI 도구를 제공하지만, llm의 접근이 더 유연하다. 특히 프롬프트 템플릿을 별도 파일로 관리하고, 로그를 자동으로 기록하는 기능들이 실용적이다. 장기적으로 여러 모델을 오가며 작업하는 개발자에게는 이런 중립적 인터페이스가 필수가 될 것이다. 벤더 락인을 피하면서 각 모델의 장점만 취하는 전략이 가능해진다.

흥미로운 건 Willison이 이 도구를 Claude로 개발했다는 점이다. Claude가 코드 작성에서 보여주는 일관성과 신뢰성 덕분에, 복잡한 API 연동 작업을 효율적으로 진행할 수 있었다고 한다. 결국 최고의 모델 하나에 올인하기보다, 각자의 강점을 아는 게 현명하다. Claude로 코딩하고, 결과물은 llm으로 여러 모델에 테스트하는 워크플로우가 점점 일반화될 것이다.

출처: Simon Willison


🔒 보안

GPU 메모리를 노리는 새로운 Rowhammer 공격: GDDRHammer와 GeForge

Rowhammer 공격이 GPU 메모리로 확장됐다. GDDRHammer와 GeForge라는 두 가지 새로운 공격 기법이 Nvidia GPU의 메모리를 표적으로 하며, 최종적으로는 CPU까지 장악할 수 있다고 한다. 공격 원리는 기존 Rowhammer와 같다. 메모리 셀을 반복적으로 읽어서 인접 셀의 비트를 플립시키는 것. 하지만 GPU 메모리는 GDDR이라는 별도 아키텍처를 쓰기 때문에, 기존 CPU 대상 공격과는 다른 접근이 필요했다.

이게 왜 AI 개발자에게 중요한가. 우리는 매일 수십 개의 GPU 인스턴스를 클라우드에서 돌린다. Claude API 호출은 Anthropic의 인프라에서 처리되지만, 로컬 추론이나 파인튜닝은 내 GPU 혹은 클라우드 GPU를 쓴다. 이 공격은 GPU 메모리를 악의적으로 조작해서 호스트 시스템의 권한을 탈취할 수 있다는 걸 보여준다. 멀티테넌트 GPU 환경에서는 특히 치명적이다.

기술적으로 흥미로운 건 공격이 CPU까지 영향을 미친다는 점이다. GPU와 CPU는 PCIe 버스로 연결되어 있고, 메모리 매핑을 통해 데이터를 주고받는다. 공격자가 GPU 메모리의 특정 영역을 조작하면, DMA 전송 과정에서 CPU 메모리까지 오염시킬 수 있다. 게임 개발에서 GPU-CPU 동기화 버그가 어떻게 시스템 전체를 불안정하게 만드는지 경험해봤다면, 이 공격의 잠재력을 쉽게 이해할 수 있다.

대응책은 아직 연구 단계다. ECC 메모리가 도움이 되지만 모든 GPU가 이를 지원하지 않는다. 소프트웨어 레벨에서는 메모리 접근 패턴을 모니터링해서 이상 징후를 탐지하는 접근이 연구되고 있다. 장기적으로는 GPU 제조사가 하드웨어 레벨의 보안 기능을 강화해야 할 것이다. AI 인프라 보안이 단순히 모델 탈취나 프롬프트 인젝션 같은 소프트웨어 문제에 그치지 않는다는 게 이 공격의 시사점이다.

출처: Ars Technica


이번 주 핵심은 "에이전트는 신뢰성이 생명이고, 오픈모델은 선택지를 넓히고, GPU 보안은 새로운 전선이다"다.

← 이전 글
AI 업데이트: Claude Code 유출과 Gemma 4 등장
다음 글 →
AI 업데이트: 로컬 LLM 서버와 에이전트 전쟁