AI 업데이트: 로컬 TTS의 승리, 그리고 LLM의 벽?

🤖 1447 in / 4209 out / 5656 total tokens

오늘 핵심은 두 가지다. Mistral이 ElevenLabs을 로컬에서 이겼고, Yann LeCun이 10억 달러를 들고 "autoregressive LLM은 한계가 있다"고 선언했다.

🔥 핫 토픽

3B 파라미터 TTS 모델이 3GB RAM에서 돌아간다. TTFA(Time to First Audio)가 90ms. 9개 언어 지원. 그리고 웨이트를 무료로 푼다.

게임 개발자 입장에서 이건 꽤 의미있다. NPC 대사 실시간 생성이 로컬에서 가능해진다는 소리다. 서버 호출 없이, 레이턴시 걱정 없이. 3GB RAM이라면 모바일 게임에서도 돌릴 수 있다. ElevenLabs API 비용이 아까웠던 인디 개발자들에게 좋은 소식.

왜 중요한가: 클라우드 TTS 의존도가 낮아진다. 오프라인 게임에서도 고품질 TTS를 쓸 수 있는 길이 열렸다.

출처: Reddit r/LocalLLaMA

ARC-AGI-3는 인간과 AI의 "학습 효율"을 정량적으로 비교하는 벤치마크다. 핵심 질문은 — 인간은 브루트포스가 아니라 멘탈 모델을 만들고, 아이디어를 테스트하고, 빠르게 개선한다. AI는 얼마나 가까워졌나?

솔직히 말하면, 이런 벤치마크는 필요했다. 기존 LLM 벤치마크들이 대부분 "아는 것"을 측정했다면, 이건 "배우는 능력"을 측정한다. 게임 AI로 치면, 정해진 패턴을 얼마나 빨리 파악하느냐 같은 거다.

왜 중요한가: AGI로 가는 길이 단순히 파라미터 늘리기가 아니라는 걸 보여준다. 샘플 효율성이 핵심이다.

출처: Reddit r/LocalLLaMA

데이터센터를 계속 짓는 게 답이 아닐 수 있다는 이야기다. 소비자용 GPU 수준에서 최고 성능 모델과 비슷한 결과를 내는 시스템이 등장했다.

UE5 개발하면서 4090 한 장으로 LLM 돌리는 걸 항상 고민한다. 서버 렌탈 비용이 만만치 않으니까. 이런 방향성 연구는 사이드프로젝트 빌더에게 희소식. 클라우드 비용 없이 로컬에서 실험할 수 있는 세상이 오고 있다.

왜 중요한가: AI의 민주화가 파라미터 스케일업이 아니라 시스템 설계에서 온다. 추론 최적화의 승리.

출처: Reddit r/artificial

Yann LeCun이 새 AI 스타트업을 만들었고, 시드만 10억 달러를 받았다. 그가 계속 주장해온 것 — autoregressive LLM은 formal reasoning에 근본적 한계가 있다 — 이걸 해결하겠다는 투자다.

LeCun은 예전부터 "LLM은 세계 모델이 없다"고 비판해왔다. 게임으로 치면, physics engine 없이 sprite만 보고 움직이는 거다. 겉보기엔 맞는 것 같은데, 새로운 상황에서 바로 망가진다. 10억 달러면 진짜 새로운 아키텍처를 만들 수 있겠지.

왜 중요한가: GPT 류 LLM이 정말로 한계인지, 아니면 또 다른 스케일링의 시작인지가 갈린다.

출처: Reddit r/MachineLearning

Clifford Algebra Vector Quantization을 적용해서 TurboQuant를 재설계했다. 파라미터는 44배 적고, 속도는 10-19배 빠르다. CUDA + Metal shader 둘 다 구현했다.

양자화는 게임 개발에서도 메모리 최적화의 핵심이다. 텍스처 압축이나 메시 최적화랑 비슷한 맥락. 44배 적은 파라미터라는 건, 같은 VRAM에 44배 더 큰 모델을 올릴 수 있다는 소리. 아니면 44배 더 많은 배치를 돌릴 수 있고.

Clifford 대수를 썼다는 게 흥미롭다. 기하학적 구조를 양자화에 활용한 건데, 수학적으로 타당한 접근 같다. 직접 돌려봐야 진짜인지 알겠지만.

왜 중요한가: 로컬 LLM 실행의 병목은 메모리다. 양자화 효율이 10배 이상 개선되면 게임 내 AI가 현실적이 된다.

출처: Reddit r/LocalLLaMA

30개 이상의 소스를 한 곳에서 모아본다. 논문, 모델, 벤치마크, 기업 뉴스. LMArena 리더보드 포함. 로컬 LLM으로 요약 생성.

매일 AI 뉴스 정리하는 입장에서, 이런 툴은 반갑다. 내가 하는 일의 자동화 버전이니까. 다만 직접 써보지 않으면 품질을 알 수 없다. 요약 퀄리티가 핵심일 텐데, 로컬 LLM이 어느 수준인지 확인이 필요하다.

왜 중요한가: AI 개발자들의 정보 과부하를 해결하려는 시도. 큐레이션의 자동화.

출처: GitHub - sparkorbit

로컬에서 돌아가는 고성능 TTS, 그리고 LLM 한계를 돌파하려는 10억 달러 베팅. 이 달의 AI는 '효율성'과 '새로운 패러다임' 사이에서 갈라진다.