AI 업데이트: Claude Code 제한과 Gemma 4 최적화

🤖 1270 in / 5258 out / 6528 total tokens

🔥 핫 토픽

Anthropic, Claude Code에서 OpenClaw 사용 차단

Anthropic이 Claude Code 구독 서비스에서 OpenClaw라는 서드파티 도구 사용을 공식적으로 차단했다. 점수 871점으로 HN 프론트페이지 상단에 오른 이슈다.

이 소식이 왜 중요하냐면, Claude Code는 Anthropic이 최근 내놓은 터미널 기반 AI 코딩 어시스턴트다. 웹 UI가 아니라 CLI에서 직접 동작하며, 코드베이스 전체를 컨텍스트로 읽어 들여 작업할 수 있다. 개발자 입장에서는 VS Code 익스텐션보다 훨씬 가볍고, SSH 접속 환경에서도 쓸 수 있어서 최근 많은 관심을 받았다. 문제는 OpenClaw 같은 비공식 클라이언트나 프록시 도구들이 이 Claude Code의 API를 우회해서 사용하려 한다는 점이다. 아마도 API 스크래핑이나 비공식 엔드포인트를 통해 정식 구독 없이 기능을 사용하려는 시도였을 것이다. Anthropic 입장에서는 이게 보안 문제이자 수익 모델을 해치는 행위니 당연히 막으려 할 수밖에 없다.

개발자에게 미치는 영향은 생각보다 크다. 로컬 LLM 커뮤니티나 오픈소스 진영에서는 상용 서비스를 우회해서 쓰는 각종 툴들이 돌아다니기 마련인데, 이게 점점 어려워진다는 뜻이다. 특히 Claude Code는 아직 베타 단계라 API 접근 방식이나 인증 메커니즘이 완전히 굳어지지 않았고, Anthropic은 이 기회에 허점을 메우는 중이다. 나도 개인적으로 Claude Code 써봤는데, 대규모 리팩토링 작업에서 꽤 쓸만했다. 다만 공식 CLI만 써야 한다는 제약이 생기면 자동화 스크립트랑 연동하기가 조금 불편해진다. 결국 정식 API를 쓰거나, 아니면 로컬 모델로 대체해야 한다는 이야기다.

기술적 배경을 설명하자면, Claude Code는 Anthropic의 Messages API를 기반으로 동작한다. 다만 일반 API와 달리 에이전트 루프, 도구 호출, 파일 시스템 접근 같은 기능이 내장되어 있다. OpenClaw는 아마 이 프로토콜을 리버스 엔지니어링해서 비공식 클라이언트를 만든 것으로 보인다. 이런 도구는 보통 API 키 탈취, 세션 하이재킹, 혹은 rate limit 우회 같은 보안 리스크를 안고 있다. Anthropic이 이걸 막은 건 기술적으로도, 비즈니스적으로도 타당한 결정이다. 다만 커뮤니티에서는 '폐쇄적인 생태계'라는 비판도 나오고 있다.

출처: Hacker News

📰 뉴스

Gemma 4 KV Cache 문제, llama.cpp에서 드디어 수정

원문: Reddit r/LocalLLaMA

로컬 LLM 커뮤니티에서 기다리던 소식이 올라왔다. 구글의 오픈소스 모델인 Gemma 4의 KV Cache 구현 문제가 llama.cpp 최신 버전에서 해결되었다는 것이다. Reddit 포스트 제목에서부터 터져 나오는 희열이 느껴진다.

이 문제가 왜 그렇게 큰일이었냐면, KV Cache가 제대로 구현되지 않으면 추론 시 메모리 사용량이 기하급수적으로 늘어난다. 원글 작성자가 '페타바이트 단위의 VRAM을 잡아먹는다'고 과장 섞인 표현을 썼지만, 실제로도 수십 기가바이트 단위로 메모리가 폭증하는 현상이 있었다. 8B 파라미터 모델인데도 24GB VRAM으로는 감당 못 하는 상황이 연출되니 로컬 실행이 사실상 불가능했다. llama.cpp 팀과 Gemma 팀 사이에 구현 방식 차이가 있었던 것으로 보이는데, 이번에야 제대로 수정되었다.

개발자 관점에서 보면 KV Cache는 Transformer 추론 최적화의 핵심이다. 기본적으로 Transformer는 self-attention을 계산할 때 이전 토큰들의 Key와 Value 벡터를 다시 계산할 필요 없이 캐싱해둘 수 있다. 이게 바로 KV Cache다. 이게 제대로 작동하면 생성할 때마다 이전 컨텍스트를 전부 재계산하지 않아도 되니까 속도도 빨라지고 메모리도 효율적으로 쓴다. 문제는 모델 아키텍처마다 KV Cache 처리 방식이 다를 수 있다는 점이다. Gemma 4는 다중 모달리티 지원과 새로운 attention 메커니즘을 도입하면서 기존 llama.cpp의 구현과 충돌이 났던 것으로 보인다.

실무적으로 이게 해결된 의미가 크다. 이제 Gemma 4를 로컬에서 제대로 돌릴 수 있게 되었다. UE5 개발하면서 가끔 간단한 스크립트 짜거나 쉐이더 코드 검토할 때 로컬 LLM 쓰는데, Claude나 GPT-4급 성능은 아니더라도 8B 모델 정도면 가벼운 작업에는 충분하다. 특히 오프라인 환경에서도 쓸 수 있다는 게 장점이다. llama.cpp는 GGUF 포맷으로 양자화된 모델을 지원해서, RTX 3060 12GB 같은 보급형 카드에서도 무리 없이 돌아간다. 이번 수정으로 Gemma 4도 드디어 그 리스트에 추가될 수 있게 되었다.

앞서 이야기한 Claude Code 제한과 묘하게 맞아떨어지는 대목이 있다. 클라우드 서비스에 의존하다 보면 이런 저런 제약에 부딪히기 마련인데, 로컬 모델 생태계가 튼튼해지면 대안이 생긴다. Gemma 4가 제대로 돌아가기 시작하면, 적어도 코드 완성이나 간단한 리팩토링 작업은 로컬에서 처리할 수 있다. 물론 복잡한 추론이나 대규모 컨텍스트 작업은 여전히 Claude나 GPT가 낫지만, 갭이 계속 좁아지고 있다.

출처: Reddit r/LocalLLaMA

⚙️ 기술 심층

KV Cache가 뭐고 왜 중요한가

KV Cache를 처음 듣는 사람을 위해 잠시 설명하자면, Transformer 모델이 텍스트를 생성할 때 사용하는 메모리 최적화 기법이다. 기본적으로 Transformer의 self-attention은 모든 토큰 쌍 사이의 관계를 계산한다. '안녕하세요 오늘 날씨가'라는 문장에서 다음 토큰을 예측할 때, 앞선 네 토큰 각각이 서로 어떤 관계인지 전부 계산하는 것이다. 문제는 토큰이 하나 더 생성될 때마다 이 계산을 처음부터 다시 해야 한다는 점이다.

여기서 아이디어가 나온다. 굳이 매번 처음부터 계산할 필요 없이, 이전에 계산한 Key와 Value 벡터를 저장해두면 되지 않을까? 이게 바로 KV Cache다. 새 토큰이 생성될 때마다 캐시에 있는 K, V 벡터들을 재사용하고, 새 토큰의 Q 벡터만 계산하면 된다. 메모리를 더 쓰는 대신 연산량을 획기적으로 줄이는 트레이드오프다.

Gemma 4에서 문제가 됐던 건 아마도 attention 구현의 차이였을 것이다. 최신 모델들은 Grouped Query Attention(GQA)이나 Multi-Query Attention(MQA) 같은 변형을 많이 쓰는데, 이 경우 KV Cache 처리 방식이 달라진다. 특히 GQA는 여러 개의 query 헤드가 하나의 key-value 헤드를 공유하는 구조라서 캐시 사이즈 계산이 까다롭다. Gemma 4는 여기에 이미지 이해 기능까지 더해지면서 복잡도가 올라갔을 것이다. llama.cpp는 원래 Llama 아키텍처에 최적화되어 있어서, 새로운 모델이 나올 때마다 이런 호환성 문제가 종종 터진다.

로컬 LLM vs 클라우드 서비스, 선택의 기로

두 뉴스를 연결해서 보면 흥미로운 흐름이 보인다. 클라우드 AI 서비스는 점점 더 폐쇄적으로 변하고 있고, 로컬 모델 생태계는 빠르게 성숙해지고 있다. Claude Code가 OpenClaw를 차단한 건 당연한 조치지만, 사용자 입장에서는 선택지가 줄어든다는 불편함도 있다. 반면 Gemma 4 같은 오픈소스 모델은 아무런 제약 없이 로컬에서 돌릴 수 있다. 성능 차이는 여전히 존재하지만, 일반적인 코딩 작업에서는 그 격차가 생각보다 크지 않다.

게임 개발자 입장에서도 이 흐름은 의미가 있다. 인게임 AI NPC나 프로시저럴 콘텐츠 생성에 로컬 LLM을 활용하려는 시도가 늘어나고 있다. 클라우드 API를 쓰면 레이턴시도 문제고, 비용도 만만치 않다. 로컬 모델은 하드웨어만 받쳐주면 무제한으로 쓸 수 있다. UE5 플러그인 형태로 LLM 추론 엔진을 통합하려는 프로젝트들도 이미 나오고 있다. llama.cpp 자체가 C++로 작성되어 있어서 언리얼 엔진과 궁합도 좋다.

물론 아직은 초기 단계다. 로컬 모델로 복잡한 코드 아키텍처를 설계하거나, 대규모 리팩토링을 시키면 결과물이 엉망이 되기 일쑤다. 하지만 간단한 함수 작성, 주석 생성, 변수명 추천 같은 작업은 이미 실용적인 수준이다. 특히 Gemma 4 같은 최신 모델들은 구글이 공개한 만큼 품질이 꽤 괜찮다. 앞으로도 계속 지켜볼 만한 영역이다.

클라우드 AI는 편리하지만 결국 플랫폼 종속이다. 로컬 LLM은 불편하지만 내 것은 내 것이다.

Claude Code Gemma 4 KV Cache llama.cpp 로컬 LLM AI 정책