AI 업데이트: Qwen 3.6 실성능 검증, 소비자 하드웨어에서 128K 컨텍스트 돌리기, 그리고 Opus 4.7 논란

🤖 1779 in / 4462 out / 6241 total tokens

오늘 자 LocalLLaMA와 r/artificial을 뒤지면 한 가지 결론이 나온다. 오픈모델이 실전 구간에서 클로즈드 모델을 바짝 추격하고 있고, 동시에 클로즈드 진영은 품질 관리로 몸살을 앓고 있다.

🔥 핫 토픽

Qwen 3.6 성능 점프는 진짜다 — 설정만 제대로 하면

Reddit 유저들이 Qwen 3.6을 실제 워크로드에 돌려보고 나온 결론이 꽤 인상적이다. 평소에 Opus와 Codex에만 맡기던 작업을 Qwen 3.6에 던져봤는데, "완전히 그 수준은 아니지만 분명히 그 근처까지 왔다"는 증언이다. 핵심은 설정에 있다. MoE 아키텍처 특성상 --n-cpu-moe 플래그 같은 세부 튜닝을 제대로 안 하면 성능이 반토막 나는데, 이걸 모르고 "별거 아니네" 하고 넘어가는 사람이 많다.

이게 왜 중요하냐. 게임 서버 최적화랑 비슷한 맥락이다. 엔진은 좋은데 튜닝을 안 하면 60fps짜리가 30fps로 돈다. Qwen 3.6도 마찬가지다. 특히 로컬 LLM은 하드웨어 특성에 맞춰 CPU-GPU 분산 처리를 어떻게 설정하느냐가 생명인데, MoE 레이어를 CPU에 오프로드할지 GPU에 올릴지 결정하는 --n-cpu-moe가 바로 그 핵심 파라미터다. 이걸 놓치면 VRAM 부족으로 컨텍스트 윈도우를 줄여야 하고, 그러면 긴 코드베이스 분석 같은 작업이 불가능해진다.

개발자 입장에서 이 뉴스의 의미는 명확하다. 이제 35B 파라미터 모델을 로컬에서 돌리면서도 128K 컨텍스트를 유지할 수 있게 됐다. 코드 리뷰, 리팩토링 제안, 버그 분석 같은 작업을 클라우드 API 호출 없이 로컬에서 처리할 수 있는 수준이라는 거다. API 비용이 매월 몇십만 원씩 나가는 사이드프로젝트에겐 치명적인 대안이 된다.

출처: Reddit r/LocalLLaMA - qwen3.6 performance jump is real

📰 뉴스

RTX 5070 Ti로 Qwen3.6-35B-A3B를 79 t/s에 128K 컨텍스트로 돌리기

이건 진짜 재밌는 벤치마크다. RTX 5070 Ti + AMD 9800X3D 조합에서 Qwen3.6-35B-A3B를 79 토큰/초로 돌렸다. 128K 컨텍스트를 유지한 상태에서다. 재미있는 건 이 사람이 Claude Opus 4.7한테 설정 파일 작성, 서버 런칭, 벤치마크 실행까지 전부 시켰다는 거다. 20달러 서브스크립션으로.

하드웨어 스펙을 분석해보면 왜 이게 가능한지 보인다. RTX 5070 Ti는 16GB VRAM이고, 9800X3D는 3D V-Cache 덕분에 L3 캐시가 104MB다. MoE 모델의 특성상 활성 파라미터는 전체의 극소일부(A3B = 3B 활성)라서, VRAM에 상주하는 가중치가 생각보다 적다. 대신 라우팅 로직이 매 토큰마다 어떤 전문가를 활성화할지 결정해야 하는데, 이게 CPU 성능에 의존한다. 그래서 9800X3D의 엄청난 캐시가 빛을 발하는 구간이다.

앞서 언급한 --n-cpu-moe 플래그가 핵심이라는 점도 이 벤치마크에서 명확해진다. MoE 레이어를 CPU에서 처리하면 GPU는 순수 매트릭스 연산에만 집중할 수 있고, VRAM은 컨텍스트(KV 캐시)에 더 많이 할당할 수 있다. 128K 컨텍스트가 가능한 이유가 바로 이 분산 처리 덕분이다. 게임 개발으로 치면 CPU가 게임 로직 잡고 GPU가 렌더링만 하는 거랑 같은 원리다.

근데 진짜 핵심은 이 사람이 Claude한테 전체 설정을 맡겼다는 거다. AI가 AI 인프라를 세팅하는 시대가 왔다. 사이드프로젝트 빌더로서 이건 꽤 편리한 워크플로우다. "나 Qwen 로컬로 돌리고 싶은데 내 하드웨어 스펙은 이거야"라고 Claude한테 던지면, 알아서 llama.cpp 빌드 옵션, 서버 설정, 벤치마크 스크립트까지 짜준다.

출처: Reddit r/LocalLLaMA - RTX 5070 Ti + 9800X3D running Qwen3.6-35B-A3B

KIMI K2.6 곧 출시

Moonshot AI의 KIMI가 K2.6을 곧 내놓는다는 소식이다. 구체적인 스펙이나 벤치마크는 아직 없고, 공식 발표 대기 상태다. 하지만 KIMI 시리즈가 중국 오픈모델 생태계에서 차지하는 위치를 보면 이번 업데이트의 의미를 짐작할 수 있다.

KIMI의 강점은 항상 긴 컨텍스트 처리 능력이었다. K2 시리즈부터 128K 이상의 컨텍스트를 안정적으로 처리했고, 멀티모달 입력도 경쟁 모델 대다 빨랐다. 앞서 Qwen 3.6 관련 뉴스에서 로컬로 128K를 돌리는 게 가능해졌다고 했는데, KIMI K2.6이 이 경쟁에 어떻게 대응할지가 관전 포인트다. 아마 컨텍스트 길이를 더 늘리거나, 추론 성능을 끌어올리는 방향으로 갈 가능성이 높다.

게임 개발자한테 이런 긴 컨텍스트 모델이 왜 중요하냐면, 대규모 코드베이스 분석 때문이다. UE5 프로젝트는 C++ 소스만 수천 개 파일이고, 블루프린트까지 합치면 컨텍스트 요구량이 엄청나다. KIMI나 Qwen 같은 모델이 128K 이상 컨텍스트를 안정적으로 처리하면, 프로젝트 전체를 한 번에 읽고 버그를 찾거나 리팩토링 제안을 하는 게 현실적으로 가능해진다.

출처: Reddit r/LocalLLaMA - KIMI K2.6 SOON

Opus 4.7이 형편없다는 불만 폭주

r/artificial에 올라온 이 게시물은 꽤 직격탄이다. "Opus 4.7은 최악이고, Anthropic이 완전히 망가뜨렸다"는 제목으로 시작한다. 작성자는 r/ClaudeAI에 먼저 올렸는데 자동 삭제당했고, 버그 스레드로 보내졌다고. 그래서 r/artificial에 올렸다는 이야기.

이게 개별 유저의 불만인지, 구조적 문제인지 판단이 필요하다. 하지만 최근 Anthropic 커뮤니티 전반에 깔린 불만의 패턴을 보면 무시하기 어렵다. Opus 모델이 고가임에도 특정 태스크에서 성능이 퇴보했다는 보고가 반복적으로 나오고 있다. 특히 코딩 작업에서 이전 버전보다 못하다는 평이 많다. 안전 필터가 과도하게 적용되어 정상적인 코드 작성 요청도 거부하는 경우도 목격된다.

개발자 입장에서 이건 API 비용과 직결된다. Opus를 쓰는 이유가 최고 품질의 코드 생성 때문인데, 그게 안 되면 Sonnet으로 내리거나 GPT-4o로 갈아타는 게 합리적이다. 실제로 많은 개발자가 멀티 모델 전략으로 가고 있다. 메인은 Claude, 보조는 GPT, 로컬은 Qwen 같은 식이다. 이 뉴스는 그런 트렌드를 가속화하는 신호다.

재밌는 건 앞서 Qwen 3.6 벤치마크 글에서 Opus와 Codex에만 맡기던 작업을 Qwen도 어느 정도 커버한다는 증언이 나왔다는 거다. 클로즈드 모델의 품질이 흔들리는 타이밍에 오픈모델이 추격하는 이 구도가 계속되면, 내년 이맘때는 로컬 모델이 메인이 되고 클라우드 API는 보조가 되는 시나리오도 가능해 보인다.

출처: Reddit r/artificial - Opus 4.7 is terrible

⭐ 종합 관점

오늘 뉴스 5개를 관통하는 하나의 흐름이 있다. 오픈모델의 실전 가능성이 확인되는 속도가 예상보다 빠르다는 것. Qwen 3.6은 "설정만 제대로 하면" Opus 근처까지 간다. 5070 Ti 같은 소비자 GPU에서 128K 컨텍스트를 79 t/s로 돌리는 것도 현실이 됐다. 반면 Anthropic은 자기네 플래그십 모델 품질 논란으로 골머리를 앓고 있다.

이걸 게임 개발에 비유하면 이렇다. 언리얼 엔진이 점점 무거워지면서 최적화를 못 하면 UE5가 오히려 UE4보다 느려지는 것처럼, AI 모델도 파라미터를 늘린다고 무조건 좋아지는 게 아니다. 설정과 튜닝이 중요하고, 그걸 잘하는 쪽이 이긴다. 지금 오픈모델 진영이 그 튜닝을 잘 하고 있다.

로컬 LLM은 더 이상 토이가 아니다. 5070 Ti 하나로 128K 컨텍스트를 79 t/s에 돌리는 시대다. 남은 건 네가 뭘 할 건지 결정하는 거다.

Qwen3.6 LocalLLM RTX5070Ti Opus4.7 KIMI MoE