AI 업데이트: Claude Opus 4.7의 위기와 로컬 모델의 역습

🤖 1654 in / 4286 out / 5940 total tokens

🔥 핫 토픽: Claude Opus 4.7, 비싸지고 못해졌다는 평판이 동시에 몰려왔다

지금 AI 커뮤니티에서 가장 뜨거운 감자는 Claude Opus 4.7이다. 이유가 하나도 아니라 세 가지다. 가격이 올랐고, 품질이 떨어졌다는 평이 있고, 그 사이 로컬 모델이 빠르게 치고 올라오고 있다. 하나씩 파보자.

Claude Opus 4.7, 세션당 비용 20~30% 증가

Hacker News에서 598점을 받은 이 글은 단순한 가격 인상 이야기가 아니다. Opus 4.7에 새 tokenizer가 적용되면서, 같은 작업을 해도 토큰 소모량이 늘어난 것이다. API 호출 기준으로는 체감이 크지 않을 수 있지만, Claude Code처럼 장시간 세션을 유지하는 워크플로우에서는 이야기가 다르다. 토큰 하나하나가 돈이니까.

게임 개발에 비유하자면, 서버 틱레이트는 그대로인데 패킷 크기가 20~30% 커진 셈이다. 네트워크 대역폭 비용이 그대로 올라가는 구조다. 특히 Claude Code를 메인 개발 도구로 쓰는 프로그래머들에게는 치명적이다. 하루에 몇 번씩 세션을 새로 만들고, 컨텍스트를 다시 로드하는 패턴이 많을수록 비용 증가가 누적된다.

더 문제은 이게 "공식적으로 발표된" 내용이 아니라는 점이다. 사용자가 직접 측정해서 발견했다. Anthropic이 의도한 건지, 부작용인지도 불분명하다. 투명성 측면에서 감점이다.

출처: Claude Code Camp - I measured Claude 4.7's new tokenizer

Opus 4.7 품질 논란: "terrible"이라는 직설적인 평가

Reddit r/artificial에서 253점을 받은 글은 제목부터 거칠다. "Opus 4.7 is terrible, and Anthropic has completely dropped the ball." 번역하면 "Opus 4.7은 형편없고, Anthropic은 완전히 본질을 놓쳤다."

글쓴이가 r/ClaudeAI에 올렸다가 자동 삭제당해서 r/artificial에 올렸다는 사실도 흥미롭다. 커뮤니티 관리 측면에서 비판적 글을 "Bugs Megathread"로 돌리는 건, 문제를 축소하려는 인상을 준다. 적어도 사용자들에게는 그렇게 보인다.

실제 품질 저하 주장의 핵심은 이전 버전에 비해 코딩 능력과 추론 능력이 퇴보했다는 것이다. 물론 새 모델이 모든 면에서 더 나을 수는 없다. 특정 태스크에서 회귀가 발생하는 건 ML 모델 업데이트에서 흔히 보이는 현상이다. 하지만 사용자가 체감하는 건 "더 비싼데 더 못한다"는 복합적인 불만이다. 게임으로 치면 밸런스 패치했더니 메인 캐릭터가 너프 먹고 과금은 늘어난 격이다.

출처: Reddit r/artificial - Opus 4.7 is terrible

Max 구독 플랜, 사실상 종료되고 있다는 분석

Reddit r/LocalLLaMA에서 413점을 받은 글은 더 구조적인 문제를 지적한다. Anthropic이 Max 구독 플랜을 "건설적으로 종료"하고 있다는 것이다. 직접 플랜을 없애는 게 아니라, 사용량 제한을 점진적으로 줄이거나 가격을 올려서 사용자가 스스로 이탈하도록 유도한다는 해석이다.

이건 게임 서비스의 "소프트 얼라이브"와 비슷하다. 공식적으로 서비스 종료를 발표하지 않고, 업데이트를 줄이고, 유저가 알아서 떠나기를 기다리는 전략. SaaS에서도 종종 쓰이는 수법이다.

개발자 입장에서 이건 신뢰의 문제다. 월 $100~$200를 내는 Max 구독자들은 파워유저다. 이들의 워크플로우가 갑자기 깨지면, 대안을 찾아야 한다. 그리고 그 대안이 바로 아래에서 다룰 로컬 모델이다.

출처: Reddit r/LocalLLaMA - Only LocalLLaMa can save us now

📰 뉴스: Qwen3.6의 약진, 로컬 모델이 클라우드를 위협하다

Qwen3.6-35B, 노트북에서 돌리는데 Claude Opus 4.7보다 낫다?

Simon Willison의 블로그 포스트가 Hacker News에서 454점을 받았다. Qwen3.6-35B-A3B를 노트북에서 로컬로 돌렸는데, 펠리컨 그림 그리기 태스크에서 Claude Opus 4.7보다 나은 결과를 냈다는 것이다.

35B 파라미터 모델이 A3B(Active 3B)라는 건, MoE(Mixture of Experts) 아키텍처를 사용해서 실제 추론 시에는 3B 파라미터만 활성화된다는 뜻이다. 이건 게임으로 치면 LOD(Level of Detail)와 비슷한 발상이다. 전체 35B 모델을 항상 다 쓰는 게 아니라, 태스크에 필요한 부분만 선택적으로 활성화하는 것이다.

실무 관점에서 이건 정말 중요하다. VRAM 8GB 노트북에서 돌릴 수 있는 모델이, 수십억 달러 인프라 위에서 도는 Claude Opus와 맞먹는 성능을 낸다. 물론 한 가지 태스크에서 그렇다는 거지만, 추세가 무섭다.

출처: Simon Willison - Qwen beats Opus

Qwen3.6으로 타워 디펜스 게임 만들기

r/LocalLLaMA에서 845점을 받은 글. Qwen3.6에 타워 디펜스 게임을 만들라고 시켰더니, 스크린샷까지 활용해서 제법 그럴싸한 결과를 냈다는 내용이다.

이 뉴스가 중요한 이유는 두 가지다. 첫째, 게임 개발 태스크는 단순 텍스트 생성이 아니라 구조적 사고가 필요하다. 게임 루프, 적 AI, 타워 배치, 리소스 관리 등 여러 시스템이 상호작용해야 한다. 이걸 로컬 모델이 해냈다는 건 상당한 수준의 코드 생성 능력을 의미한다.

둘째, 앞서 언급한 Opus 4.7의 비용 문제와 맞물려 읽으면 시사하는 바가 크다. 클라우드 API에 의존하면 세션당 비용이 계속 늘어나는데, 로컬 모델은 한 번 설정하면 전기비만 든다. 게임 개발처럼 반복적인 프로토타이핑이 많은 워크플로우에서는 로컬 모델의 경제성이 더 두드러진다.

물론 아직은 특정 태스크에서의 결과다. 복잡한 대규모 프로젝트에서는 여전히 Claude나 GPT가 압도적이다. 하지만 이 추세라면 6개월 뒤에는 이야기가 달라질 수 있다.

출처: Reddit r/LocalLLaMA - Qwen3.6 This is it

🔗 전체 흐름 읽기

이번 주 뉴스 5건을 나란히 놓고 보면 하나의 선명한 그림이 그려진다. Claude Opus 4.7은 비용은 올리고, 특정 영역에서는 품질 논란까지 있다. Max 구독자들은 불안해하고 있다. 그 틈을 로컬 모델, 특히 Qwen3.6이 파고들고 있다.

물론 Anthropic이 가만히 있을 리 없다. Sonnet 라인업은 여전히 가성비가 좋고, Claude의 전체적인 생태계(특히 Claude Code)는 강력하다. 하지만 이번 사태는 "클라우드 AI가 항상 우위"라는 전제가 흔들리기 시작했다는 신호다.

UE5 개발자로서 느끼는 건, 이제 AI 도구 선택이 "어떤 클라우드 API를 쓸까"에서 "클라우드와 로컬을 어떻게 조합할까"로 변하고 있다는 것이다. 빌드 서버는 클라우드, 로컬 프토토타이핑은 Qwen, 프로덕션 코드 리뷰는 Claude. 이런 식의 하이브리드 워크플로우가 곧 표준이 될 수 있다.

클라우드의 왕좌는 여전히 단단하지만, 로컬 모델의 포성이 가까워지고 있다. 개발자는 편들 필요 없이 둘 다 쓰면 된다.

Claude Anthropic Opus 4.7 Qwen3.6 LocalLLaMA AI비용 로컬모델