🤖 1321 in / 3347 out / 4668 total tokens

AI 업데이트: Qwen 3.7 드랍과 6개월간 LLM 생태계 요약

🔥 핫 토픽

Qwen 3.7, 조용히 Qwen Chat에 등장하다

원문: Reddit r/LocalLLaMA - Qwen 3.7 droped on Qwen Chat

알리바바가 Qwen 3.7을 조용히 Qwen Chat에 배포했다. 큰 홍보 없이 슬그머니 올린 점이 눈에 띈다. Reddit r/LocalLLaMA에서 568점을 기록중이며, 로컬 LLM 커뮤니티의 반응이 뜨겁다.

왜 중요한가:

Qwen 시리즈는 Meta의 Llama, Mistral과 함께 오픈(또는 오픈웨이트) LLM 생태계의 3대 축이다. 특히 Qwen은 비영어권, 특히 아시아 언어 성능이 뛰어나 한국어 처리에서도 Llama보다 나은 성능을 보여주는 경우가 많다. UE5 클라이언트에 NPC 대화 시스템 붙일 때 로컬 LLM 선택지가 늘어난다는 건, 서버 비용 없이도 퀄리티 있는 AI NPC를 구현할 수 있다는 뜻이다.

버전 숫자가 3.x에서 3.7로 올라간 걸 보면, 아마도 파인튜닝이나 RLHF 과정을 거치며 안정성과 성능을 점진적으로 개선한 모델인 것 같다. 게임 개발에서 말하자면 패치 노트 없이 hotfix 올리는 느낌인데, 메이저 업데이트가 아닌 만큼 아키텍처 변경보다는 학습 데이터나 정렬(alignment) 쪽 개선에 초점을 맞췄을 가능성이 높다.

개발자 관점:

로컬 LLM으로 사이드프로젝트 할 때 모델 선택은 정말 중요하다. VRAM 제한 때문에 7B~14B 모델을 쓰는데, 같은 크기라도 Qwen이 Llama보다 한국어 처리가 좋은 경우가 많아서 최근엔 Qwen 위주로 테스트하고 있다. 3.7이 나왔으니 벤치마크 돌려보고, 이전 버전 대비 얼마나 개선됐는지 확인해야 할 듯.

참고로 Qwen Chat에서 바로 테스트해볼 수 있으니, 로컬에 모델 받기 전에 웹에서 먼저 체감해보는 걸 추천한다. 나도 초기에 무작정 14GB 모델 받았다가 VRAM 부족으로 OOM(Ouf of Memory) 뜨는 삽질을 여러 번 했다.

출처: Reddit r/LocalLLaMA

📰 뉴스

Simon Willison의 "최근 6개월 LLM 요약"

원문: The last six months in LLMs in five minutes - Simon Willison

Simon Willison이 최근 6개월간 LLM 생태계 변화를 5분 만에 읽을 수 있게 정리했다. 이 분은 Datasette, LLM CLI 도구 만든 사람으로, AI 개발자라면 꼭 구독해야 할 블로그 중 하나다.

왜 중요한가:

LLM 생태계가 너무 빨리 변해서, 풀타임으로 AI 하는 사람이 아니면 따라가기 벅차다. 게임 프로그래머로서 메인 일은 UE5 C++고, AI는 사이드 프로젝트 수준인데, 매일 논문과 뉴스를 쫓을 수는 없다. 이런 요약 글이 큰 도움이 된다.

Simon Willison의 글은 항상 "개발자가 실제로 쓸 수 있는 정보"에 초점을 맞춘다. Hugging Face 트렌딩 모델이 뭔지, 어떤 모델이 가성비 좋은지, 실제 프로덕션에서 무엇이 통하는지. 학술적 논문 요약이 아니라 프랙티컬한 인사이트라는 거다. 게임 서버 아키텍처 설계할 때도 이론보다 실제 트래픽 처리 경험이 중요한 것처럼.

개발자 관점:

이 글에서 아마 다음 내용들이 다뤄질 것이다:

오픈소스 vs 클로즈드 모델의 경쟁 구도 (Llama, Qwen vs GPT-4o, Claude)
로컬 실행 환경의 발전 (llama.cpp, Ollama 등)
컨텍스트 윈도우 확장 경쟁 (128K가 기본이 되어가는 추세)
멀티모달 통합 (비전+텍스트가 기본 스펙으로)

이런 흐름을 알아두는 이유는, 사이드프로젝트 아키텍처 결정에 영향을 주기 때문이다. 예를 들어, 컨텍스트 윈도우가 충분히 넓어지면 RAG 파이프라인을 단순화할 수 있고, 로컬 실행 환경이 좋아지면 API 의존도를 낮출 수 있다. "6개월 전엔 불가능했는데 지금은 된다"는 순간을 캐치하는 게 핵심.

참고로 Simon Willison의 블로그는 RSS로 구독하는 걸 강추한다. 트위터/X나 LinkedIn에 알고리즘에 휘둘리지 않고, 원하는 정보만 필터링해서 받아볼 수 있다. 게임 개발할 때도 에디서 알림 끄고 필요한 것만 켜놓는 것과 같은 원리다.

출처: Simon Willison's Weblog

🔗 두 뉴스의 연결고리

Qwen 3.7 드랍과 Simon Willison의 LLM 요약은 타이밍이 묘하게 맞아떨어진다. 요약 글에서도 아마 최근 오픈소스 LLM의 약진을 다룰 텐데, Qwen 3.7이 바로 그 흐름의 최신 데이터 포인트인 셈이다.

로컬 LLM 생태계가 1년 전과 비교해 폭발적으로 성장했다. 작년 이맘때만 해도 "로컬에서 돌리는 건 데모 수준"이라는 인식이 강했는데, 지금은 실제 프로덕션에서도 로컬 LLM을 진지하게 고려하는 분위기다. 게임 NPC AI 같이 실시간 응답이 필요한 경우, API 호출 지연(latency)이 체감될 수 있어서 로컬 실행이 유리한 면이 있다.

물론 여전히 한계는 있다. 7B~14B 모델로는 GPT-4 수준의 복잡한 추론은 어렵고, 한국어 처리도 완벽하진 않다. 하지만 "적당히 쓸만한" 수준까지는 올라왔다. 게임 개발에서도 "완벽한 AI"보다는 "플레이어가 납득할 수 있는 수준의 AI"가 목표니까, 로컬 LLM으로 충분한 케이스가 많다.

이터의 한줄: Qwen 3.7로 로컬 LLM 선택지 또 늘었고, Simon Willison 요약으로 놓친 흐름 빠르게 캐치하자. AI는 하반기에도 계속 빨리 변한다.

Qwen LLM 로컬AI SimonWillison 오픈소스 AI업데이트