AI 업데이트: Qwen3.5 MoE 로컬 모델 진화와 데이터 파이프라인 자동화

🤖 1433 in / 3512 out / 4945 total tokens

🔥 핫 토픽

Qwen3.5-35B A3B Uncensored Heretic v2 — Native MTP 보존 변체 다양한 포맷으로 출시

https://huggingface.co/llmfan46/Qwen3.5-35B-A3B-uncensored-heretic-v2-Native-MTP-Preserved

알리바바클라우드의 Qwen 계열 모델이 또 한 번 로컬 LLM 커뮤니티를 들썩이게 했다. 이번에 나온 Qwen3.5-35B-A3B-uncensored-heretic-v2는 총 파라미터 35B 중 활성 파라미터 3B만 사용하는 MoE(Mixture of Experts) 아키텍처 기반이다. 핵심은 "Native MTP Preserved"에 있다. MTP(Multi-Token Prediction)는 한 번의 추론으로 여러 토큰을 동시에 예측하는 기법으로, 추론 속도를 극적으로 끌어올릴 수 있는 핵심 기술이다. 기존 변형 모델들이 파인튜닝 과정에서 이 MTP 구조를 망가뜨리는 경우가 많았는데, 이 버전은 785개의 전체 MTP를 보존했다.

왜 이게 중요하냐면, 로컬 환경에서 대형 모델을 돌리는 개발자에게 "추론 속도"는 생존 문제다. 서버 환경이면 A100 여러 대 물려서 쓰면 되지만, 내 로컬 워크스테이션이나 가정용 GPU에서는 한 토큰 생성하는 데 몇 초 걸리느냐가 체감 품질을 결정한다. MTP가 제대로 보존된 모델은 동일 하드웨어에서도 체감 2~3배 빠른 응답을 보여줄 수 있다. 특히 GGUF 포맷 지원으로 CPU 온리 환경이나 Apple Silicon Mac에서도 구동 가능하다. NVFP4, GPTQ-Int4 등 NVIDIA 최신 양자화 포맷도 지원하는 걸 보면, 하드웨어 가속을 최대한 활용하겠다는 의도가 명확하다.

"Uncensored" 라벨이 붙은 이유는 안전 필터링(RLHF 과정의 거부 응답)을 의도적으로 제거했기 때문이다. 게임 개발에서 NPC 대화 생성, 퀘스트 텍스트 생성, 제한 없는 창작 보조 도구로 쓸 때 유용하다. 물론 책임 있는 사용이 전제되어야 한다. 개인적으로는 MoE 모델의 VRAM 사용 패턴이 게임 엔진의 스트리밍 시스템과 비슷해서 흥미롭다. 전체 리소스는 크지만 실제로 사용하는 부분만 메모리에 올리는 구조니까.

출처: Reddit r/LocalLLaMA

📰 뉴스

edupulse — 비영리단체 CSV 데이터를 보조금 신고용 인사이트로 변환하는 AI 플랫폼

https://github.com/Sakshi3027/edupulse

GitHub 트렌딩에 올라온 edupulse는 겉보기엔 단순한 데이터 처리 도구지만, 구조를 뜯어보면 꽤 흥미로운 아키텍처를 보여준다. 비영리단체가 가진 엑셀/CSV 형태의 엉망진창 데이터를 자동으로 정리하고, 자연어 쿼리로 질문하면 LLM이 분석 결과와 서술형 보고서를 뽑아주는 시스템이다. FastAPI 백엔드에 Streamlit 프론트엔드, 데이터 클리닝 파이프라인, LLM 기반 내러티브 생성까지 갖추고 있다.

이 프로젝트가 주목할 만한 이유는 "데이터 파이프라인 + LLM" 조합의 실용적 사례를 보여주기 때문이다. 게임 개발에서도 유사한 요구사항이 많다. 예를 들어, 플레이어 로그 CSV를 던져주면 "이번 주 이탈률이 높은 구간과 원인 분석"을 자연어로 물어보고 답을 받는 시스템을 만들고 싶을 때가 있다. edupulse의 데이터 클리닝 → 스키마 추론 → 자연어 쿼리 → LLM 분석 파이프라인은 그대로 참고할 수 있는 구조다.

FastAPI 선택도 적절하다. 비동기 처리가 가능하고, WebSocket 지원으로 실시간 분석 진행 상황을 클라이언트에 push할 수 있다. UE5 전용 서버라면 gRPC나 TCP 소켓을 쓰겠지만, 웹 기반 대시보드나 관리 도구를 만들 때는 FastAPI가 훨씬 빠른 프로토타이핑이 가능하다. 교육(Education) 태그가 붙어있지만, 데이터 파이프라인 구조는 도메인에 상관없이 재사용 가능하다. 개인적으로 사이드 프로젝트로 게임 데이터 분석 도구를 만들고 있는데, 이 레포의 폴더 구조와 에러 핸들링 방식을 참고할 생각이다.

출처: GitHub Trending

💭 두 뉴스를 관통하는 관점

두 뉴스는 언뜻 관련이 없어 보이지만, "AI의 로컬화와 실용적 도구화"라는 흐름 위에 있다. Qwen3.5 변체는 로컬에서 강력한 LLM을 쓸 수 있게 만들고, edupulse는 그런 LLM을 실제 문제 해결에 연결하는 파이프라인을 보여준다. 앞서 언급한 MTP 보존 모델을 edupulse 같은 시스템의 백엔드 LLM으로 사용하면, 클라우드 API 비용 없이도 로컬에서 빠르고 강력한 데이터 분석 도구를 구축할 수 있다.

로컬 LLM의 발전은 특히 게임 개발자에게 큰 의미가 있다. 실시간 NPC 대화, 프로시저럴 콘텐츠 생성, 테스트 자동화 등에 LLM을 활용하려면 레이턴시가 핵심인데, MTP 기반 모델이 그 문제를 해결해줄 수 있다. API 호출 비용이 걱정 없이 게임 클라이언트 내장 LLM을 실험할 수 있는 환경이 점점 현실이 되고 있다.

로컬에서 빠르게 도는 LLM과 그걸 실제 문제에 연결하는 파이프라인. 이 둘이 만나면 클라우드 없이도 쓸 만한 AI 도구를 만들 수 있다.

로컬 LLM Qwen MoE MTP 데이터 파이프라인 FastAPI 게임개발