GPT-5.5가 공개됐다, 숫자로 뜯어보면

더 많은 글은 radarlog.kr에서.

어제(2026/4/23) OpenAI가 GPT-5.5를 공개했다. 코드네임 "Spud".

놀라운 건 모델 자체가 아니다. GPT-5.4가 나온 게 6주 전이다.

OpenAI 수석과학자 Jakub Pachocki는 브리핑에서 "지난 2년이 오히려 느렸다"고 말했다. 이 한 문장이 이 릴리스의 진짜 맥락이다.

6주, 그리고 "Spud"

GPT-5.4는 6주 전에 나왔다. 그 전 릴리스는 12월, 그 전은 11월.

모델이 분기 단위 이벤트였던 시대는 지나갔다. 지금은 주 단위, 길어야 한 달 단위 이벤트다.

이 속도가 가능한 이유는 단순하다. AI가 AI 개발을 가속하고 있다. OpenAI 발표에 따르면 Codex 주간 사용자가 4백만, ChatGPT 유료 업무 사용자가 9백만이다. 이 규모의 실사용 피드백이 바로 다음 학습 사이클로 돌아간다.

Pachocki의 발언을 다시 보자.

"지난 2년이 오히려 느렸다."

이건 지금이 느리다는 말이 아니다. 앞으로는 더 빨라질 거라는 선언이다. GPT-5.5도 6주 만에 나왔는데, 이것조차 느렸다는 말이다.

Greg Brockman은 같은 브리핑에서 "새로운 종류의 지능이고, 에이전틱하고 직관적인 컴퓨팅으로 가는 큰 한 걸음"이라고 표현했다. 마케팅 수사를 걷어내면 남는 건 하나다. 모델 교체 주기가 제품 기획 주기보다 짧아지고 있다.

벤치마크 숫자, 있는 그대로

수치부터 정리해보자.

Terminal-Bench 2.0 — 복잡한 커맨드라인 워크플로우(계획 → 도구 사용 → 반복) 평가:

GPT-5.5         82.7%
GPT-5.4         75.1%
Claude Opus 4.7 69.4%
Gemini 3.1 Pro  68.5%

OSWorld-Verified — 모델이 컴퓨터를 독립적으로 조작하는 능력 평가:

GPT-5.5         78.7%
Claude Opus 4.7 78.0%
GPT-5.4         75.0%

SWE-Bench Pro — 실제 GitHub 이슈를 단일 시도로 해결:

GPT-5.5   58.6%

Terminal-Bench에서 Opus 4.7 대비 +13.3%p 차이. 큰 점프다. 그런데 OSWorld에서는 Opus 4.7과 0.7%p 차이. 어떤 축에서는 크게 앞서고, 어떤 축에서는 턱걸이다.

"압도"가 아니라 "리드"다. 그리고 벤치마크 하나로 모델을 줄 세우는 시대는 이미 지났다. 컴퓨터 조작 능력은 Anthropic이 꾸준히 투자해온 영역이고, 그 격차를 OpenAI가 이번에 이번에 거의 따라붙었다 — 정도의 해석이 오히려 더 정확하다.

그리고 벤치마크는 마케팅 자료다. OpenAI가 자기에게 유리한 지표를 골라서 내놓는다. 실제 워크플로우에서 체감은 각자 검증해야 한다.

1M 컨텍스트와 이상한 토큰 경제

API 가격표가 재밌다.

GPT-5.5        $5 / $30   per 1M tokens (input / output)
GPT-5.5 Pro    $30 / $180 per 1M tokens (input / output)
Context window 1M
Batch / Flex   정가의 절반
Priority       정가의 2.5배

GPT-5.4보다 비싸다. 그런데 OpenAI는 "같은 일을 더 적은 토큰으로 끝낸다"고 주장한다. 실제 자사 블로그에는 "GPT-5.5가 실제 서빙에서 GPT-5.4와 같은 토큰당 지연시간을 유지한다"는 문장이 있다.

무슨 말이냐. 단가는 올랐지만 토큰 소비량이 줄어서 결과적으로 청구서가 비슷하거나 더 낮을 수 있다는 주장이다. 실제 지갑에 뭐가 찍힐지는 워크로드마다 다르다. 추론이 긴 에이전트 태스크에서는 유리할 수 있고, 짧은 단답형 콜이 많은 앱에서는 그냥 비싸질 수도 있다.

그리고 1M 컨텍스트. Anthropic이 먼저 간 구간을 OpenAI도 따라왔다. 긴 문서 분석, 큰 레포지토리 이해, 롱런 에이전트 세션 — 1M이 의미 있는 워크로드는 분명히 존재한다.

주목할 건 GPT-5.5 Pro 가격이다. 입력 $30, 출력 $180. 이건 일반 개발자용이 아니다. 명백히 엔터프라이즈 워크로드를 위한 가격이다. 에이전트가 하루 종일 돌아가는 케이스, 복잡한 연구 워크플로우 — 이런 데만 의미 있는 티어다.

Mythos, code red, 그리고 경쟁의 얼굴

Axios 리포트에서 가장 시사적인 한 문장은 이거다.

OpenAI 내부에서 Anthropic의 부상이 "code red" 수준으로 인식됐고, 이게 엔터프라이즈 고객 전략을 선회시킨 계기라는 보도.

GPT-5.5 브리핑에서 OpenAI는 Anthropic의 Mythos를 명시적으로 언급했다. Mythos는 Anthropic이 이달 초 발표한 최신 모델인데, 사이버보안 역량 때문에 출시 범위가 제한된 상태다. OpenAI가 이걸 언급하는 이유는 분명하다. "우리도 Mythos급 사이버 역량이 있다"는 신호를 보내는 거다.

지금 프론티어 모델 경쟁은 기술 대 기술이 아니다. 엔터프라이즈 예산 대 엔터프라이즈 예산이다. Fortune에 실린 Bank of New York CIO 코멘트를 보면 감이 온다. 그 은행은 Anthropic과 OpenAI를 병행 테스트하고 있고, 220+ AI 유스케이스를 돌리고 있다. 이런 고객이 실제 판을 흔든다.

6주마다 모델이 나오는 진짜 이유도 여기에 있다. 기술적으로 필요해서가 아니라, 상대가 6주마다 낼 수 있으니까. 한쪽이 멈추는 순간 엔터프라이즈 계약이 이동한다.

재밌는 건 이 경쟁 구도 자체가 사용자에게는 호재라는 점이다. 6주마다 더 좋은 모델이 나오고, 가격 압력도 같이 들어온다. 프론티어 랩이 여러 개 있다는 사실만으로도 판이 건강해진다.

숫자 뒤에 남는 질문

그래서 뭘 해야 하나.

모델 하나에 스택을 맞추는 건 점점 손해 보는 선택이다. 6주 뒤에 더 좋은 모델이 나올 확률이 매우 높기 때문이다. OpenAI가 낼 수도, Anthropic이 낼 수도, Google이 낼 수도 있다. 누가 낼지 미리 알 수 없다.

투자 포인트는 그 위 계층이다. 하네스, 멀티 에이전트 오케스트레이션, 툴 체인, 평가 파이프라인, 컨텍스트 엔지니어링. 이 계층은 모델이 바뀌어도 유지된다. 오히려 모델이 좋아질수록 이 계층이 더 잘 돌아간다.

GPT-5.5 같은 릴리스는 이제 뉴스라기보다 환경이다. 주기적으로 업데이트되는 인프라. 그걸 전제로 워크플로우를 짜는 게 2026년의 현실적인 접근이다.

벤치마크 1~2%p에 감정적으로 흔들리지 않는 쪽이 길게 간다. Terminal-Bench 82.7%가 몇 달 뒤에 85%로 바뀌어도, 워크플로우 설계는 대부분 그대로 쓸 수 있다.

"모델은 교체된다. 워크플로우는 축적된다."

AI OpenAI GPT 벤치마크 에이전트