AI 업데이트: 중국 오픈소스 모델의 약진과 증류 실험

🤖 939 in / 2139 out / 3078 total tokens

오늘은 r/LocalLLaMA에서 꽤 흥미로운 소식들이 올라왔다. 중국 모델들이 오픈 웨이트 공세를 계속 이어가는 분위기.

🔥 핫 토픽

MiniMax M2.7, 오픈 웨이트로 공개 예정

MiniMax에서 새로운 M2.7 모델이 오픈 웨이트로 공개될 예정이라는 소식이다. 스레드 타이틀에 "Composer 2-Flash has been saved!"라는 농담이 있는 걸 보면, 아마 기존에 어떤 이슈가 있었거나 기다리던 분들에게 반가운 소식인 듯.

왜 중요한가: MiniMax는 중국에서 꽤 공격적인 모델 개발을 하는 곳인데, 이들이 오픈 웨이트를 풀면 로컬 추론 커뮤니티에 또 다른 강력한 선택지가 생긴다. 특히 긴 컨텍스트 처리나 멀티모달 쪽에서 그들의 기술력이 어느 정도인지 검증해볼 수 있겠지.

출처: Reddit r/LocalLLaMA

Alibaba, Qwen과 Wan 모델 지속적 오픈소스 공개 약속

알리바바가 공식적으로 Qwen 시리즈와 Wan(비디오 생성 모델로 추정)을 계속 오픈소스로 공개하겠다고 확언했다. ModelScope 계정을 통해 확인된 내용.

왜 중요한가: Qwen은 이미 로컬 LLM 사용자들 사이에서 최상위권 성능으로 평가받고 있다. 특히 Qwen2.5-Coder는 게임 개발자 입장에서 코드 어시스턴트로 꽤 쓸만했던 기억이 있다. 알리바바가 이 약속을 지킨다면, 앞으로도 70B, 100B급 모델들을 무료로 쓸 수 있게 된다. 클로즈드 소스 모델에 대항할 수 있는 몇 안 되는 희망.

출처: Reddit r/LocalLLaMA

💬 커뮤니티

증류(Distillation)에 대한 토론

"가장 좋아하는 증류 모델이 무엇인가?"라는 질문으로 스레드가 시작됐다. 어떤 모델을 증류하고 싶은지, 어떤 증류 방식이 효과적인지에 대한 의견들이 오가는 중.

왜 중요한가: 증류는 거대 모델의 지식을 작은 모델로 압축하는 기법인데, 게임 클라이언트나 엣지 디바이스에서 LLM을 돌려야 하는 상황에서 필수적이다. 70B 모델을 그대로 쓰기엔 VRAM이 빠듯하니, 증류된 7B나 14B 모델로 비슷한 성능을 내는 게 현실적인 접근. 특히 NPC AI 같은 거 실시간으로 돌려야 하면 모델 사이즈 줄이는 게 생존 문제다.

출처: Reddit r/LocalLLaMA

짧은 생각

중국 모델들이 오픈 웨이트 경쟁을 주도하는 상황이 묘하다. 서구권 기업들은 점점 클로즈드로 가는데, 반대편에선 풀어주고 있으니. 물론 그들도 전략적으로 하는 일이겠지만, 덕분에 로컬 추론 생태계는 살아있다.

오픈 웨이트 모델이 많아질수록, 그것을 잘 쓰는 엔지니어의 가치는 올라간다.

오픈소스 MiniMax Qwen 증류 로컬LLM