🤖
1312 in / 3315 out / 4627 total tokens
🔥 핫 토픽
12GB VRAM으로 128K 컨텍스트, 80 tok/sec 달성 — 로컬 LLM의 게임 체인저
Reddit r/LocalLLaMA에서 화제를 모은 이 포스트는 Qwen3.6 35B A3B 모델을 llama.cpp 최신 빌드와 MTP(Multi-Token Prediction) PR 조합으로 구동해 12GB VRAM 환경에서 80 tok/sec라는 경이로운 속도를 달성한 사례다. 12GB는 RTX 3060, 4070 같은 보급형 게이밍 GPU의 표준 메모리 용량이다. 즉, 이제 평범한 개발자의 워크스테이션에서도 35B급 모델을 실사용 가능한 속도로 돌릴 수 있게 됐다는 뜻이다.
이게 왜 중요하냐. 서버 아키텍처 관점에서 생각해보자. 기존에는 LLM 서비스를 운영하려면 A100 같은 엔터프라이즈 GPU가 필요했고, 그럼 클라우드 비용이 월 수백만 원씩 쌓인다. 게임 개발자가 NPC 대화 시스템이나 프로시저럴 퀘스트 생성을 LLM으로 프로토타이핑하려면 API 호출 비용이 만만치 않았다. 그런데 이제 12GB VRAM으로 로컬에서 80 tok/sec가 나온다면, 프로토타입 단계에서는 클라우드 없이도 충분히 실험할 수 있다.
Qwen3.6 35B A3B의 핵심은 MoE(Mixture of Experts) 아키텍처에 있다. 전체 파라미터는 35B지만 실제 추론 시 활성화되는 파라미터는 3B에 불과하다. 나머지는 상황에 따라 선택적으로 활성화되는 '전문가' 뉴런들이다. 이건 UE5의 LOD 시스템과 비슷한 발상이다. 멀리 있는 메시는 폴리곤을 줄이고 가까이 있을 때만 디테일을 올리듯, MoE는 토큰 예측에 필요한 '전문가'만 선택적으로 활성화해 연산량을 줄인다.
MTP(Multi-Token Prediction)도 빼놓을 수 없다. 기존 autoregressive 모델은 토큰을 하나씩 순차적으로 생성한다. 반면 MTP는 한 번의 forward pass에서 여러 토큰을 동시에 예측한다. 이건 게임 서버의 배치 처리와 닮았다. 개별 요청을 하나씩 처리하는 대신 묶어서 한 번에 처리하면 처리량(throughput)이 크게 올라가는 원리다. MTP가 llama.cpp에 통합되면서 로컬 추론 속도가 획기적으로 개선된 배경이다.
128K 컨텍스트도 주목할 만하다. 게임 스크립트 전체, 세계관 설정 문서, NPC 대화 히스토리를 모두 컨텍스트에 넣고도 속도가 유지된다는 건, 장기 기억이 필요한 게임 AI 시스템 구축에 실질적인 가능성을 열어준다.
출처: Reddit r/LocalLLaMA - 80 tok/sec and 128K context on 12GB VRAM
📰 뉴스
AI가 보안의 두 가지 취약성 문화를 깨고 있다
Jeff Kaufman의 이 글은 AI가 사이버 보안의 근본적인 패러다임을 흔들고 있다고 진단한다. 전통적으로 보안 커뮤니티에는 두 가지 문화가 공존했다. 하나는 '책임 있는 공개(Responsible Disclosure)'—취약점을 발견하면 벤더에 먼저 알리고 패치가 나온 뒤 공개하는 방식이다. 다른 하나는 '공개 후 패치(Full Disclosure)'—발견 즉시 공개해서 벤더가 패치하도록 압박하는 방식이다.
AI가 이 균형을 깨고 있다. LLM 기반 코드 분석 도구가 대중화되면서 취약점 발견의 진입 장벽이 급격히 낮아졌다. 예전에는 고도의 전문 지식이 필요했던 버그 헌팅이, 이제는 프롬프트 몇 개로 가능해지고 있다. 문제는 이 능력이 선의의 연구자뿐 아니라 악의적 행위자에게도 열려 있다는 점이다.
게임 서버 개발자로서 이건 등골이 서늘해지는 이야기다. UE5 전용 서버든, 커스텀 백엔드든, 게임 서버는 항상 공격 표면(attack surface)을 가진다. 클라이언트 조작, 메모리 해킹, 패킷 스니핑... 전통적인 게임 해킹도 문제지만, AI가 코드베이스의 논리적 취약점을 자동으로 찾아내기 시작하면 무기한 방어가 훨씬 어려워진다.
이 글이 지적하는 핵심은 '시간'의 문제다. 책임 있는 공개 모델에서는 연구자가 벤더에게 '수일~수주'의 시간을 준다. 하지만 AI로 무장한 공격자는 그 시간 차이를 이용할 수 있다. 연구자가 벤더에 리포트하기도 전에, AI가 같은 취약점을 찾아내고 익스플로잇이 암시장에 돌고 있을 가능성이 높아진다.
앞서 언급한 로컬 LLM 실용화와도 연결된다. 12GB VRAM으로 35B 모델을 돌릴 수 있게 되면, 보안 분석용 로컬 도구도 더 강력해진다. 선의의 개발자도 더 빠르게 취약점을 찾을 수 있지만, 공격자도 마찬가지다. 결국 '보안 by design'이 선택이 아니라 필수가 되는 시대다. 게임 개발에서도 서버 아키텍처 설계 단계부터 보안을 고려해야 한다. 나중에 패치하겠다는 생각은 통하지 않는다.
출처: AI is breaking two vulnerability cultures - JeffTK
💭 개발자 코멘트
두 뉴스를 묶어보면 한 가지 결론에 도달한다. AI의 민주화는 양날의 검이다. 로컬 LLM 성능 향상은 개인 개발자에게 서버급 추론 능력을 가져다주지만, 동시에 보안 위협도 민주화한다. 게임 개발자 입장에서는 내 프로젝트에 LLM을 통합할 때 성능 최적화와 보안 설계를 동시에 고려해야 한다.
Qwen3.6 + llama.cpp 조합은 확실히 로컬 AI 실험의 기준을 높였다. NPC AI, 프로시저럴 콘텐츠 생성, 자연어 인터페이스—게임에 LLM을 쓸 수 있는 시나리오가 현실적인 비용으로 가능해지고 있다.
로컬 GPU로 서버급 LLM을 돌리는 시대. 그만큼 코드의 취약점도 빠르게 발견되는 시대다. 최적화와 보안, 둘 다 놓치면 안 된다.