Claude Opus 4.7이 나왔다 — 게임 프로그래머가 본 실전 변화

더 많은 글은 radarlog.kr에서.

2026년 4월 16일, Anthropic이 Claude Opus 4.7을 일반 공개했다.

Opus 4.6이 2월에 나왔으니 딱 두 달 만이다. 2개월 사이클이 굳어지는 분위기다.

게임 프로그래머 관점에서 이번 릴리스가 왜 중요한가. Claude Code를 UE5 C++ 작업에 쓰는 사람이라면 모델이 바뀔 때마다 프롬프트 튜닝, 하네스 설계, 토큰 예산을 다시 잡아야 한다. 공식 발표글과 마이그레이션 가이드를 기준으로, 게임 개발 업무 관점에서 뭐가 달라지는지 정리한다.

한 줄 요약: "긴 태스크를 던져도 되는 모델"

발표글에서 가장 먼저 눈에 들어오는 문장은 이거다.

"Users report being able to hand off their hardest coding work—the kind that previously needed close supervision—to Opus 4.7 with confidence."

감시 없이 맡길 수 있다는 얘기다. 이게 과장인지 실제인지는 써봐야 안다. 다만 벤치마크 숫자가 그 방향을 뒷받침한다.

Cursor의 CursorBench에서 Opus 4.6은 58%였지만 Opus 4.7은 70%를 넘겼다. Rakuten-SWE-Bench에서는 프로덕션 태스크 해결률이 3배로 뛰었다. Devin을 만드는 Cognition 쪽은 "몇 시간 동안 코드 일관성을 유지한다"고 코멘트를 남겼다.

감각으로 풀면 이렇다. Opus 4.6까지는 한 덩어리 태스크를 주고 30~40분 뒤에 돌아와서 "뭐 이상한 거 없나" 보는 게 안전했다. 4.7은 두세 시간짜리도 던져볼만 하다는 얘기다.

UE5 작업에서 이게 뭘 의미하는지는 분명하다. 서브시스템 리팩토링, USTRUCT 해시 재구현, 여러 에셋을 가로지르는 enum 삭제 — 이런 태스크를 던져놓고 회의 다녀오는 워크플로우가 현실적으로 된다.

xhigh 이펙트 레벨 — 지금 당장 바꿔야 하는 설정

Opus 4.7이 들고 온 가장 중요한 API 변화는 xhigh다.

기존에는 effort 레벨이 low, medium, high, max 네 개였다. 여기에 high와 max 사이로 xhigh가 추가됐다. "extra high"라는 뜻이다.

그리고 Claude Code의 모든 플랜에서 기본 effort가 xhigh로 올라갔다. 공식 가이드도 이렇게 권장한다.

"When testing Opus 4.7 for coding and agentic use cases, we recommend starting with high or xhigh effort."

이게 왜 중요한가. 지금까지는 Claude Code에서 "답변이 얕다" 싶을 때 /ultrathink 같은 패턴으로 우회하는 경우가 있었다. 이제는 기본값 자체가 더 깊이 생각하는 쪽으로 옮겨갔다.

대신 트레이드오프가 있다. Hex의 CTO는 이렇게 표현했다.

"low-effort Opus 4.7 is roughly equivalent to medium-effort Opus 4.6."

같은 품질을 얻고 싶으면 effort를 한 단계 낮춰도 된다는 얘기다. 돈이 빡빡한 팀은 이 지점을 활용할 수 있다. 진짜 어려운 태스크엔 xhigh를 쓰고, 평범한 수정엔 low로 떨어뜨리는 식으로 레벨을 과감하게 쓰는 게 4.7 체감을 바꾸는 포인트다.

실전에서 어떻게 쓸지 정리하면 이렇다.

# 코딩 태스크 - 기본값은 xhigh
response = client.messages.create(
    model="claude-opus-4-7",
    thinking={"type": "adaptive"},
    output_config={"effort": "xhigh"},
    messages=[...]
)
 
# 간단한 리팩토링이나 포맷팅 - low로 충분
response = client.messages.create(
    model="claude-opus-4-7",
    thinking={"type": "adaptive"},
    output_config={"effort": "low"},
    messages=[...]
)

일반적인 가이드라인으로 풀면 기본값은 xhigh, 단순 작업은 low로 내리는 게 맞다. medium을 쓸 상황이 거의 없어진다.

토크나이저가 바뀌었다 — 같은 입력이 1.35배로 팽창할 수 있다

이건 조용히 쓰면 월말 청구서에서 놀라는 변화다.

공식 가이드 원문이다.

"Opus 4.7 uses an updated tokenizer that improves how the model processes text. The tradeoff is that the same input can map to more tokens—roughly 1.0–1.35× depending on the content type."

토크나이저가 교체됐다. 더 똑똑해졌지만, 콘텐츠 타입에 따라 같은 입력이 최대 1.35배 토큰으로 매핑된다.

게임 개발자한테 이게 왜 치명적인가. UE5 C++ 코드베이스를 컨텍스트로 넣을 일이 많다. .h/.cpp 쌍, Blueprint 더미, USTRUCT 정의, Slate 위젯 — 이런 코드 덩어리들이 정확히 "토큰 팽창이 잘 일어나는 콘텐츠"다.

게다가 두 번째 변화가 더 있다.

"Opus 4.7 thinks more at higher effort levels, particularly on later turns in agentic settings."

에이전틱 세팅에서, 특히 뒷턴일수록 더 많이 생각한다. 출력 토큰도 늘어난다는 뜻이다.

대응은 두 갈래다.

먼저 큰 작업을 던질 때 프롬프트에 "be concise"를 넣거나 task budgets 베타를 쓴다. task budgets는 이번에 같이 공개된 기능인데, 에이전트가 긴 런에서 토큰을 어떻게 배분할지 개발자가 가이드할 수 있다. 퍼블릭 베타 상태라 지금 바로 써볼 수 있다.

다음으로 CLAUDE.md 같은 항상 들어가는 컨텍스트를 다시 훑는다. 4.6까지 괜찮던 사이즈가 4.7에선 빡빡해질 수 있다. 안 쓰는 섹션 덜어내고, 예시 코드 더 짧게 자른다.

비전이 세진다 — 2,576px, 3.75메가픽셀

이건 컴퓨터 유즈 에이전트 만드는 사람한테 진짜 큰 변화다.

Opus 4.7은 긴 축 기준 2,576픽셀, 대략 3.75메가픽셀까지 받는다. 이전 Claude 모델들의 3배가 넘는 해상도다.

왜 중요한지 실전 예를 들면 이렇다. UE5 에디터 스크린샷을 Claude한테 주고 "이 Details 패널 상태를 그대로 재현해줘"라고 하면, 4.6까지는 다운샘플링 때문에 체크박스나 숫자가 뭉개져서 에이전트가 읽지 못했다. 4.7에선 픽셀 단위로 본다.

XBOW라는 자동 침투 테스트 회사 사례가 극단적이다. 그들의 비주얼 예민도 벤치마크에서 Opus 4.6은 54.5%였는데 4.7은 98.5%를 찍었다. 거의 두 배다.

게임 쪽에서 써먹을 지점이 여러 개 나온다. UMG/Slate 디자인을 스크린샷으로 주고 코드를 받는 워크플로우. Unreal Insights나 프로파일러 결과 이미지를 읽혀 핫패스를 찾는 패턴. 커밋 diff 스크린샷 리뷰. 스프라이트/애니메이션 결과물의 시각적 디버깅. 전부 4.6까진 해상도 문제로 빠지던 케이스들이다.

Memory — 파일시스템 기반 메모리를 더 잘 쓴다

발표글에 이런 문장이 있다.

"Opus 4.7 is better at using file system-based memory. It remembers important notes across long, multi-session work."

모델 자체에 망각 곡선을 심는 게 아니라, 파일시스템에 노트를 남기고 에이전트가 그걸 다시 읽는 구조를 강화했다는 얘기다.

Claude Code 유저라면 이 패턴이 낯설지 않다. 세션이 길어지면 중간에 NOTES.md나 CONTEXT.md 같은 걸 만들어두고, 새 세션에서 그걸 다시 읽으면서 상태를 복구한다. 4.7은 이 루틴을 더 능숙하게 돌린다.

게임 개발 프로젝트에서 이건 꽤 큰 의미가 있다. UE5 프로젝트는 컨텍스트가 방대하다. 네트워킹 규약, USTRUCT 레이아웃, Blueprint 호출 규칙, 렌더링 파이프라인 제약. 한 세션에 다 넣을 수 없다.

실전 패턴은 이미 알려져 있다. docs/architecture/ 밑에 주제별로 memory 파일을 쪼개둔다. 세션 시작할 때 "오늘은 전투 시스템 작업이다"라고 하면 에이전트가 관련 memory 파일만 골라 읽는다. 4.7은 이걸 덜 힘들이고 한다.

모델 버전이 올라갈수록 "Memory 파일 구조 설계" 역량이 점점 중요해진다. 단순히 CLAUDE.md 하나에 몰아넣는 시대는 지났다.

/ultrareview와 auto mode — Claude Code 자체도 같이 바뀐다

Opus 4.7 출시와 함께 Claude Code에 두 가지 기능이 붙었다.

먼저 /ultrareview 슬래시 커맨드다. 전용 리뷰 세션을 열어서 변경사항을 읽고, 꼼꼼한 리뷰어가 잡을 만한 버그와 설계 이슈를 플래그한다. Pro/Max 유저한테 세 번 무료 시도를 준다고 한다.

팀 컨벤션이 복잡한 프로젝트일수록 /ultrareview 같은 전용 모드가 잘 먹힌다. 일반 채팅에서는 대충 훑고 지나가는 것들을 리뷰 모드에선 더 깊게 본다. UE5처럼 헤더/소스/Build.cs/Config이 얽혀 있는 구조에선 특히 유용할 가능성이 크다.

그 다음은 auto mode의 Max 유저 확대다. auto mode는 Claude가 "이 작업은 권한을 물어봐야 하나?"를 스스로 판단하는 기능이다. 전부 허용하는 것보다 안전하고, 매번 묻는 것보다 빠르다.

게임 개발에서 이게 왜 유용한가. UE5 프로젝트는 파일이 수백 개다. 한 작업에서 .h, .cpp, .Build.cs, Config/*.ini까지 건드려야 할 때가 많다. 매번 권한을 물으면 흐름이 깨진다. 그렇다고 전부 허용하면 .uproject 같은 핵심 파일이 망가질 위험이 있다.

auto mode는 "위험한 파일은 물어보고, 나머지는 진행"이라는 중간 지점을 잡는다. 이론상 게임 프로젝트 워크플로우에 잘 맞을 것 같은 구조다.

Mythos Preview 얘기 — Opus 4.7이 왜 "중간 단계"인가

이번 릴리스를 이해하려면 Mythos Preview 얘기를 빼놓을 수 없다.

지난주 Anthropic은 Claude Mythos Preview를 공개하면서 Project Glasswing이라는 이니셔티브를 같이 발표했다. Mythos는 Anthropic의 가장 강력한 모델인데, 특히 사이버 보안 쪽 능력이 압도적이라 일반 공개를 하지 않는다. 대신 AWS, Apple, Google, Microsoft, Cisco, CrowdStrike, JPMorgan, Linux Foundation, NVIDIA, Palo Alto Networks 같은 핵심 인프라 파트너들한테만 제한적으로 풀었다.

왜 이렇게까지 했냐. Mythos는 이미 모든 주요 OS와 브라우저에서 수천 개의 제로데이를 찾아낸 상태다. OpenBSD에서 27년 묵은 버그도 찾았다고 한다. Nicholas Carlini가 "지난 몇 주간 평생 찾은 것보다 더 많은 버그를 찾았다"고 했을 정도다. 이 능력이 공격자 손에 들어가는 걸 피하려고 한정 배포 트랙을 만든 거다.

가격도 Opus 4.7과 완전히 다르다. Mythos Preview는 $25/$125 per million tokens (입력/출력)이고, Opus 4.7은 $5/$25다. 5배 차이 난다.

여기서 Opus 4.7의 포지션이 선명해진다. Anthropic은 원래 "다음 Opus 모델에 새 사이버 가드레일을 실어서 테스트할 것"이라고 예고했었는데, 그 모델이 바로 4.7이다. Mythos급 모델을 나중에 넓게 풀려면 먼저 안전장치가 실전에서 작동해야 한다. 4.7은 일부러 사이버 능력을 낮춘 상태로 그 가드레일을 검증하는 샘플이다.

이게 게임 개발자한테 실전적으로 뭘 의미하는가.

대부분의 게임 개발 작업에는 영향이 없다. 네트워크 프로토콜 설계, 치트 방어, 서버 보안 — 이런 작업은 "방어"쪽이라 일반적으로 통과한다. 다만 보안 소프트웨어가 끼어드는 환경에서 디버깅을 하다 보면 "보안 소프트웨어를 우회하는 방법"으로 오해받을 여지가 있는 질문이 생긴다. 이럴 때 좀 더 섬세하게 맥락을 설명해야 할 수 있다.

정당한 보안 연구자를 위해 Cyber Verification Program이라는 별도 트랙이 열렸다. 레드팀이나 취약점 연구 쪽 종사자라면 신청해볼 만하다.

그리고 이게 진짜 중요한 포인트인데, Anthropic의 로드맵이 이 릴리스에서 드러났다는 점이다. Mythos는 당장 퍼블릭 릴리스 계획이 없지만, "Mythos-class 모델을 언젠가 안전하게 대규모 배포하는 것"이 목표라고 명시했다. Opus 4.7은 그 길의 첫 번째 정거장이다. 4.8이든 5.0이든 다음 모델은 Mythos 능력에 더 가까워지면서 더 정교한 가드레일을 태우고 나올 거다.

업그레이드 전 체크리스트

이번 릴리스를 받고 해야 할 일을 정리하면 이렇다.

CLAUDE.md나 항상 컨텍스트에 들어가는 파일들을 다시 훑는다. 토크나이저가 바뀌면서 예전 사이즈가 과해질 수 있다. 안 쓰는 섹션 정리하고, 예시 코드도 짧게 자른다.

Claude Code 설정에서 effort 기본값을 xhigh로 올리고, 단순 작업용 low 프리셋을 따로 만든다. 양극단을 쓰는 게 4.7 운영의 핵심이다.

/ultrareview를 PR 하나에 적용해본다. 기존 리뷰 대비 뭐가 더 잡히는지, 얼마나 걸리는지 측정.

auto mode를 테스트한다. 위험한 파일에서 실제로 멈추는지, 아니면 그냥 넘어가는지.

마지막으로 이게 제일 중요한데, 기존 프롬프트를 재검토한다. Anthropic이 명시적으로 경고했다.

"prompts written for earlier models can sometimes now produce unexpected results: where previous models interpreted instructions loosely or skipped parts entirely, Opus 4.7 takes the instructions literally."

지시를 문자 그대로 받는다. 4.6 때는 "적당히 알아서 하겠지" 하고 쓴 프롬프트가 4.7에선 문제를 일으킬 수 있다. 특히 CLAUDE.md에 들어간 지시문들을 다시 봐야 한다. "적절히", "필요하면", "가능한 한" 같은 모호한 표현이 많으면 4.7은 그걸 문자 그대로 해석하려고 하다가 엉뚱한 결과를 낸다.

모델이 바뀌면 프롬프트도 바뀌어야 한다. 하네스는 모델 위에 쌓는 게 아니라, 모델과 함께 다시 짜는 거다.