GLM-5를 두 달 쓰고, 5.1이 나왔다

더 많은 글은 radarlog.kr에서.

분기 $80. Claude Max의 절반도 안 되는 가격에 코딩 AI를 무제한으로 쓸 수 있다길래 결제했다.

2월에 GLM-5가 나왔을 때 벤치마크를 꼼꼼히 비교했다. SWE-bench Verified 77.8%, 오픈소스 최초로 Intelligence Index 50점 돌파. Opus 4.6과의 격차가 확 줄었다는 숫자를 보고 GLM Coding Plan Pro를 질렀다. 분기 $80이면 Opus를 API로 쓰는 것보다 6~10배 저렴하다. 이 가격에 이 성능이면 해볼 만하지 않나.

두 달을 썼다. 결론부터 말하면, 적재적소가 확실한 모델이다.

MidWayDer 자동개발, 기대와 현실

GLM-5를 가장 공격적으로 밀어넣은 건 MidWayDer 자동개발이었다. auto-dev-pd 크론을 걸어서 1시간마다 GLM-5가 알아서 코드를 생성하고 커밋하는 구조다. 무제한 호출이라고는 하지만 비용을 안 신경 쓴 건 아니다. 오히려 엄청 신경 썼다. 크론이 돌 때마다 토큰이 얼마나 나가는지, 이게 진짜 분기 $80 안에서 소화되는 건지 계속 확인했다.

근데 결과물이 마음에 안 들었다.

UI가 어설프고, 기능 구현이 불안정했다. 한 시간마다 자동으로 찍히는 커밋을 열어볼 때마다 "이걸 왜 이렇게 짰지?"가 반복됐다. Opus한테 같은 태스크를 주면 한 번에 깔끔하게 나오는 것들이 GLM-5에서는 두세 번 수정이 필요했다. 자동개발이라는 게 사람이 안 보는 사이에 알아서 굴러가야 하는 건데, 결과물을 매번 검수해야 하면 자동의 의미가 반감된다.

특히 복잡한 추론이 필요한 순간에 차이가 났다. 컴포넌트 간 의존성을 파악하고 전체 구조를 고려해서 코드를 짜는 능력은 확실히 Opus가 한 수 위였다. GLM-5는 각 컴포넌트를 개별적으로는 괜찮게 짜는데, 전체를 꿰뚫는 시야가 부족했다.

근데 솔직히 이게 모델만의 문제였는지는 모르겠다. 나도 GLM-5를 제대로 못 다뤘을 수 있다. Opus한테 던지는 것처럼 대충 프롬프트를 날리고 알아서 해주길 바랐는데, 모델마다 잘 먹히는 지시 방식이 다르다. 프롬프트를 더 잘게 쪼개서 줬으면, CLAUDE.md처럼 GLM 전용 컨텍스트를 꼼꼼하게 세팅했으면 결과가 달랐을 수도 있다. Opus는 두루뭉술하게 던져도 의도를 잘 잡아주니까 내가 거기에 익숙해진 것 같다.

자동개발에서 GLM-5가 아쉬웠던 건 맞다. 다만 그게 모델의 한계인지, 내가 모델을 덜 이해하고 쓴 탓인지는 반반이다.

구독하면 API key를 준다 — 이게 진짜 장점

GLM Coding Plan의 최대 장점은 구독하면 API key를 제공한다는 거다. 오픈클로나 Claude Code 안에서만 쓰는 게 아니라, 그 API key를 들고 나가서 어디서든 쓸 수 있다. 이게 생각보다 크다.

이더봇 기본 모델로 GLM-5를 물렸다. 텔레그램 챗봇이라 매일 대화하고, 간단한 코딩 질문을 던진다. 이 용도에서는 응답 속도도 괜찮고 한국어 처리도 잘 됐다. 복잡한 아키텍처 설계를 요구하는 게 아니라 "이 에러 뭐야", "이 함수 뭐하는 거야" 수준의 질문이니까 GLM-5로 충분했다.

radarlog.kr의 AI Signal 카테고리에서도 GLM-5가 돌아가고 있다. GitHub Actions 크론으로 AI 관련 소스를 긁어와서 GLM-5한테 요약/정리를 맡기고 자동으로 포스트를 발행하는 파이프라인이다. 이건 확실히 잘 맞는 용도다. 정해진 포맷에 맞춰서 정보를 정리하는 건 GLM-5가 안정적으로 해낸다. 매일 돌아가는 자동 글쓰기에 Opus API를 쓰면 비용이 순식간에 불어나는데, GLM-5 API key 하나로 해결되니까 가성비가 좋다.

CrewAI 하이브리드 전략에서도 제 몫을 했다. 에이전트 역할을 나눌 때 Tech Writer를 GLM-5에 맡겼다. 문서화, 코드 주석, README 작성 같은 반복적이고 명확한 태스크다. 여기에 Opus급 모델을 쓰는 건 비용 낭비고, GLM-5는 이런 작업을 안정적으로 해냈다.

결국 패턴이 보였다. 명확한 지시 + 단일 태스크에서는 GLM-5가 가성비 끝판왕이고, 복잡한 추론 + 장기 컨텍스트가 필요한 곳에서는 Opus를 쓰는 게 맞다. "일상은 GLM, 중포는 Claude" 전략이 두 달 쓰면서 자연스럽게 정착됐다.

45.3점, 숫자가 의미하는 것

3월 27일, GLM-5.1이 나왔다.

Claude Code 기반 코딩 평가에서 45.3점. Opus 4.6의 47.9점 대비 94.6% 수준이다. 전작 GLM-5의 35.4점에서 28% 향상. 한 달 반 만에 이 정도 점프는 솔직히 놀랍다.

재밌는 건 테스트 환경이다. Claude Code는 Claude 시리즈에 최적화된 도구다. GLM-5.1 입장에서는 완전한 원정 경기인 셈인데, 거기서 94.6%를 찍었다. 홈 그라운드에서 돌리면 실제 능력은 더 높을 수 있다는 뜻이다.

아키텍처는 GLM-5와 동일하다. 744B 총 파라미터에 40B 활성 MoE, DeepSeek Sparse Attention. 컨텍스트 윈도우 204,800 토큰, 최대 출력 131,072 토큰. 구조를 바꾼 게 아니라 포스트트레이닝을 크게 밀었다는 얘기다. Z.ai의 "Slime" 비동기 RL 인프라가 이 정도 속도의 이터레이션을 가능하게 한 것 같다.

가격도 여전히 매력적이다. Coding Plan이 프로모션가 월 $3부터, 정가 월 $10부터 시작한다. 내가 쓰는 Pro 분기 $80도 Opus의 월 $100~200 대비 압도적으로 저렴하다.

이 글의 소재를 5.1이 정리했다

한 가지 재밌는 게 있다.

이 블로그 글을 쓰기로 마음먹고, 소재를 정리하려고 오픈클로에 GLM-5.1을 물려서 "내가 GLM-5 쓰면서 뭘 했는지 정리해줘"라고 던졌다. 5.1이 정리해준 내용이 이 글의 뼈대가 됐다.

GLM-5였으면 이 정도로 깔끔하게 정리됐을까? 모르겠다. 근데 5.1은 내가 던진 맥락을 잘 잡아서 MidWayDer 자동개발 경험, 이더봇 활용, CrewAI 역할 분배까지 구조적으로 뽑아냈다. 사용 경험, 장단점, 요금제, 기대 포인트를 깔끔하게 카테고리화해서 돌려줬다.

이게 28% 향상의 체감일 수도 있다. 벤치마크 숫자는 추상적이지만, "소재 정리를 시켰더니 쓸 만한 구조가 나왔다"는 경험은 구체적이다.

5.1에 기대하는 것

코딩 벤치마크 28% 향상이 실제 자동개발 품질로 이어지는지가 가장 궁금하다.

GLM-5에서 MidWayDer 자동개발이 아쉬웠던 건 UI/기능의 불안정함이었다. 5.1이 이 부분을 개선했다면 auto-dev-pd 크론을 다시 걸어볼 생각이다. 무제한 호출 + 개선된 코드 품질이 합쳐지면, 사람이 자는 동안 진짜로 쓸 만한 코드가 쌓이는 구조가 가능해진다.

Opus가 여전히 우위인 영역은 있다. 1M 토큰 초장문 컨텍스트, 극한 깊이의 추론, 복잡한 멀티스텝 에이전트 워크플로우. 이건 구조적 차이라 5.1에서도 당장 따라잡기 어려울 거다. 하지만 일상 코딩의 94.6%가 Opus 수준이라면, "일상은 GLM, 중포는 Claude" 전략의 일상 쪽이 훨씬 든든해진다.

분기 $80으로 이 정도 퀄리티가 나오면, 사이드 프로젝트를 굴리는 입장에서는 거의 최적의 가성비다.

"5를 두 달 쓰면서 한계를 알았고, 5.1이 그 한계를 얼마나 밀어냈는지 지금부터 확인한다."

AI GLM CodingAgent OpenClaw Claude