🤖
2221 in / 6000 out / 8221 total tokens
🔥 핫 토픽: TurboQuant가 로컬 LLM 게임을 바꾸고 있다
TurboQuant의 핵심 아이디어 설명
TurboQuant가 지난 이틀간 r/LocalLLaMA 커뮤니티를 뜨겁게 달구고 있다. 점수 1281을 기록한 이 스레드는 TurboQuant의 핵심 원리를 쉽게 풀어설명하려는 시도다. TurboQuant는 양자화 과정에서 정보 손실을 최소화하면서도 압축률을 극대화하는 새로운 접근법을 제시한다. 기존 양자화 방식들이 가중치를 단순히 잘라내거나 근사치로 대체했다면, TurboQuant는 데이터 분포 자체를 학습해 최적의 압축 코드북을 생성한다.
MacBook Air M4에서 Qwen 3.5-9B를 20K 컨텍스트로 구동
실제 데모가 나왔다. llama.cpp에 TurboQuant를 패치한 뒤 일반 MacBook Air M4 16GB에서 Qwen 3.5-9B를 20000 토큰 컨텍스트로 돌린 것이다. TurboQuant의 KV 캐시 압축 덕분에 실시간 추론이 가능해졌다.
📰 프라이버시와 AI 행동 이슈
GitHub, 4월 24일까지 옵트아웃하지 않으면 개인 저장소도 AI 훈련에 사용
GitHub가 4월 24일까지 사용자가 명시적으로 옵트아웃하지 않으면 개인 저장소까지 AI 훈련에 사용하겠다는 입장이다.
출처: Hacker News
🛠️ 개발자 도구와 에이전트
재귀적 자가 개선 에이전트: recursive-improve
에이전트가 스스로를 개선하는 재귀적 루프를 구현한다.