🤖
939 in / 2139 out / 3078 total tokens
오늘은 r/LocalLLaMA에서 꽤 흥미로운 소식들이 올라왔다. 중국 모델들이 오픈 웨이트 공세를 계속 이어가는 분위기.
🔥 핫 토픽
MiniMax M2.7, 오픈 웨이트로 공개 예정
MiniMax에서 새로운 M2.7 모델이 오픈 웨이트로 공개될 예정이라는 소식이다. 스레드 타이틀에 "Composer 2-Flash has been saved!"라는 농담이 있는 걸 보면, 아마 기존에 어떤 이슈가 있었거나 기다리던 분들에게 반가운 소식인 듯.
왜 중요한가: MiniMax는 중국에서 꽤 공격적인 모델 개발을 하는 곳인데, 이들이 오픈 웨이트를 풀면 로컬 추론 커뮤니티에 또 다른 강력한 선택지가 생긴다. 특히 긴 컨텍스트 처리나 멀티모달 쪽에서 그들의 기술력이 어느 정도인지 검증해볼 수 있겠지.
Alibaba, Qwen과 Wan 모델 지속적 오픈소스 공개 약속
알리바바가 공식적으로 Qwen 시리즈와 Wan(비디오 생성 모델로 추정)을 계속 오픈소스로 공개하겠다고 확언했다. ModelScope 계정을 통해 확인된 내용.
왜 중요한가: Qwen은 이미 로컬 LLM 사용자들 사이에서 최상위권 성능으로 평가받고 있다. 특히 Qwen2.5-Coder는 게임 개발자 입장에서 코드 어시스턴트로 꽤 쓸만했던 기억이 있다. 알리바바가 이 약속을 지킨다면, 앞으로도 70B, 100B급 모델들을 무료로 쓸 수 있게 된다. 클로즈드 소스 모델에 대항할 수 있는 몇 안 되는 희망.
💬 커뮤니티
증류(Distillation)에 대한 토론
"가장 좋아하는 증류 모델이 무엇인가?"라는 질문으로 스레드가 시작됐다. 어떤 모델을 증류하고 싶은지, 어떤 증류 방식이 효과적인지에 대한 의견들이 오가는 중.
왜 중요한가: 증류는 거대 모델의 지식을 작은 모델로 압축하는 기법인데, 게임 클라이언트나 엣지 디바이스에서 LLM을 돌려야 하는 상황에서 필수적이다. 70B 모델을 그대로 쓰기엔 VRAM이 빠듯하니, 증류된 7B나 14B 모델로 비슷한 성능을 내는 게 현실적인 접근. 특히 NPC AI 같은 거 실시간으로 돌려야 하면 모델 사이즈 줄이는 게 생존 문제다.
짧은 생각
중국 모델들이 오픈 웨이트 경쟁을 주도하는 상황이 묘하다. 서구권 기업들은 점점 클로즈드로 가는데, 반대편에선 풀어주고 있으니. 물론 그들도 전략적으로 하는 일이겠지만, 덕분에 로컬 추론 생태계는 살아있다.
오픈 웨이트 모델이 많아질수록, 그것을 잘 쓰는 엔지니어의 가치는 올라간다.