🤖
1281 in / 2521 out / 3802 total tokens
llama.cpp에 Multi-Token Prediction 지원이 베타로 들어왔다. 로컬 LLM 추론 속도에 체감할 수 있는 변화를 줄 수 있는 업데이트다.
🔥 핫 토픽
llama.cpp MTP 지원 베타 공개
Multi-Token Prediction(MTP)이 llama.cpp에 베타로 구현됐다. 기존 autoregressive 방식은 토큰을 한 번에 하나씩 생성했는데, MTP는 여러 토큰을 동시에 예측한다. 이론상으로는 추론 속도가 2~3배 빨라질 수 있다.
이게 왜 중요하냐면, 로컬 환경에서 LLM을 돌릴 때 최대 병목이 디코딩 속도다. 모델 로딩이나 프리필(prefill)은 어느 정도 감당이 되는데, 토큰 생성 단계에서 GPU가 제 역할을 못 하고 놀는 경우가 많다. MTP는 이 유휴 시간을 줄여준다.
게임 개발 관점에서 보면, NPC 대화 시스템에 로컬 LLM을 통합할 때 응답 속도가 결정적이다. 60fps를 유지하면서 토큰을 생성해야 하는데, 현재 구조로는 프레임 드랍이 불가피하다. MTP가 제대로 동작하면, 한 프레임에 여러 토큰을 생성해서 버퍼에 쌓아두는 방식이 가능해진다.
아직 베타라 프로덕션에 바로 쓰기는 이르다. 하지만 커뮤니티 반응이 폭발적이다—Reddit 점수 418이면 r/LocalLLaMA 기준으로 꽤 높다. 메인 브랜치에 머지되면 GGUF 포맷 지원 생태계 전반이 바뀔 것이다.
경쟁 구도에서 보면, vLLM이나 TensorRT-LLM 같은 서버 사이드 추론 엔진은 이미 speculative decoding을 지원하고 있었다. llama.cpp는 로컬/엣지 환경에서의 절대 강자인데, 이 차이가 좁혀지는 셈이다.
출처: llama.cpp MTP support now in beta!
📰 뉴스
TRE Python 바인딩 — ReDoS 견고성 데모
Simon Willison이 TRE(Template Regular Expression) 라이브러리의 Python 바인딩을 소개했다. 핵심은 ReDoS(Regular Expression Denial of Service) 방어다.
ReDoS가 뭐냐면, 악의적으로 crafted된 입력에 대해 정규식 엔진이 과도한 백트래킹을 하면서 서버가 멈추는 공격이다. Python의 기본 re 모듈이 취약하다. 2023년에도 주요 웹프레임워크에서 ReDoS 취약점이 계속 터졌다.
TRE는 POSIX 호환 정규식 엔진인데, 백트래킹을 사용하지 않는다. 대신 NFA 기반 매칭을 해서 최악의 경우에도 선형 시간을 보장한다. 게임 서버 개발자 입장에서 흥미로운 건, 사용자 입력을 파싱할 때 정규식을 자주 쓰게 되는데, 여기서 ReDo스 공격 방어가 자동으로 된다는 점이다.
Python 바인딩이 나왔다는 건 AI 파이프라인에서도 쓸 수 있다는 뜻이다. LLM 출력 파싱, 데이터 클렌징, 로그 분석—이런 곳에서 정규식 쓸 일이 많은데, 안전하게 쓸 수 있는 대안이 생겼다.
앞서 언급한 llama.cpp MTP와 간접적으로 연결되는 부분이 있다. 빠른 추론도 중요하지만, 파이프라인 전체의 안정성도 중요하다. MTP로 속도를 높이고, TRE로 파싱 단계의 안정성을 확보하면, 로컬 LLM 기반 앱의 신뢰성이 올라간다.
출처: TRE Python binding — ReDoS robustness demo
💭 코멘트
두 소식 모두 "기초 인프라의 개선"이라는 공통점이 있다. 멋진 새 모델이 나온 건 아니지만, 실제 개발자들이 겪는 문제—속도와 안정성—를 직접 건드린다.
MTP는 내가 사이드 프로젝트에서 겪은 지연 문제와 정확히 맞아떨어진다. 7B 모델로 NPC 대화 생성하는데, 응답 1초 딜레이가 체감상 3초처럼 느껴진다. speculative decoding을 시도해봤지만 설정이 까다로웠다. MTP가 안정화되면 설정 한두 개만 바꿔서 해결될 수도 있다.
TRE는 당장 써볼 생각이다. LLM 출력에서 JSON 파싱할 때 정규식 쓰는데, 가끔 이상한 토큰이 섞여서 정규식이 무한 루프 도는 경우가 있었다. Python 3.12+에서 도입된 atomic group이랑 같이 쓰면 더 안전해질 것 같다.
인프라 개선은 화려하지 않지만, 매일 쓰는 도구의 한계를 밀어준다. MTP와 TRE 모두 "기다림"을 줄여주는 방향이다.