AI 업데이트: GPT-5.5 유출과 Codex의 진화

이 글은 AI 검수에서 통과하지 못했습니다 (점수: 75/100)

⚠️ 비어있는 섹션이 있다 🚫 죽은 링크: https://simonwillison.net/2026/Apr/23/gpt-5.5/#atom-everything (404)

링크 오류, 품질 미달 등의 사유로 자동 분류된 글입니다.

🤖 1264 in / 3702 out / 4966 total tokens

오늘 핫한 건 두 가지다. Simon Willison이 Codex 백도어 API로 GPT-5.5를 만졌다는 이야기, 그리고 OpenAI가 공식적으로 Codex가 뭔지 설명한 포스트. 둘이 묘하게 얽혀있다.

🔥 핫 토픽

GPT-5.5, Codex 백도어로 이미 돌아다니고 있었다

Simon Willison이 semi-official Codex backdoor API를 통해 GPT-5.5에 접근했다는 제보를 올렸다. 공식 발표도 안 된 모델을 이미 실 서비스 API 엔드포인트에서 확인할 수 있었다는 건데, 이건 OpenAI 내부 배포 파이프라인이 꽤 느슨하다는 뜻이기도 하다. 게임 개발하면서도 언리얼 빌드 서버에 실수로 다음 패치 브랜치 올라가는 거 종종 봤는데, 비슷한 맥락이다.

Willison이 확인한 바로는 GPT-5.5는 기존 o3 모델 계열과는 다른 아키텍처를 사용하는 것으로 보인다. 응답 속도가 눈에 띄게 빠르고, 코드 생성 퀄리티가 확실히 올라갔다. 특히 멀티파일 리팩토링 같은 복잡한 작업에서 진전이 있어 보인다. UE5 C++ 프로젝트에서 헤더/소스 파일 동시 수정 같은 거 시킬 때 구조를 더 잘 파악하는 느낌이라고.

문제는 이게 "semi-official" 백도어라는 거다. OpenAI가 의도적으로 푼 건지, 실수인 건지 불명확하다. 어쨌든 API 스펙에 이미 모델 ID가 노출되어 있었고, 이를 Willison이 발견한 것. 보안 관점에서는 좀 아찔하지만, 개발자 입장에서는 다음 세대 모델이 어디까지 왔는지 엿볼 수 있는 좋은 기회다. 내 사이드프로젝트에서도 vLLM으로 로컬 모델 돌릴 때 비슷하게 엣지 케이스 테스트하곤 하는데, 프로덕션 레벨에서 이런 일이 벌어지면 곤란하다.

경쟁 구도를 보면, Google Gemini 2.5 Pro가 코딩 벤치마크에서 약진하고 Anthropic Claude 4도 임박한 시점에 OpenAI가 선제적으로 다음 모델을 테스트하는 건 이해된다. 하지만 이렇게 뒷문으로 샤샤샥 나오는 건 좀.... Windows 초기 버전에서 숨겨진 이스터에그 찾는 기분이다.

출처: Simon Willison - A pelican for GPT-5.5

📰 뉴스

OpenAI가 말하는 Codex란 무엇인가

OpenAI가 공식 블로그에서 "What is Codex?"라는 제목으로 Codex의 정체를 설명했다. 핵심은 채팅을 넘어서 실제 작업을 수행하는 에이전트라는 것. 문서 작성, 대시보드 생성, 도구 연동 등 단순 텍스트 생성이 아니라 실제 산출물을 만들어낸다.

이건 게임 서버 아키텍처 관점에서 꽤 흥미롭다. 기존 ChatGPT가 "request-response" 모델이었다면, Codex는 "event-driven workflow"에 가깝다. 상태를 유지하고, 외부 도구를 호출하고, 결과를 다시 후속 작업에 활용하는 구조. UE5에서 GameInstance가 레벨 전환 시 상태를 들고 다니는 것과 비슷하다. 세션 관리, 컨텍스트 윈도우 최적화, 도구 호출 오케스트레이션... 이게 다 서버 사이드 아키텍처 문제다.

실무적으로 가장 눈에 띄는 건 "connecting tools" 부분. API 체이닝을 자동으로 처리한다는 건데, 예를 들어 "Jira 티켓 읽고 → 코드 수정하고 → PR 생성하고 → 테스트 돌리고 → 결과 리포트" 같은 시퀀스를 한 번에 실행 가능하다. 내가 C++ 빌드 파이프라인 자동화할 때 Jenkins 파이프라인 스크립트 짜던 것의 AI 버전이라고 보면 된다. 물론 아직은 완벽하지 않겠지만, 방향성은 확실하다.

기술 배경을 조금 덧붙이면, 이런 에이전트 구조는 ReAct (Reasoning + Acting) 패턴의 진화형이다. LLM이 사고하고 행동을 반복하면서 목표를 달성하는 방식인데, 여기에 도구 사용(tool use)과 메모리 관리가 결합된 형태. 모르는 독자를 위해 비유하자면, 요리사가 레시피를 읽으면서 (사고) 재료를 꺼내고 (행동) 맛을 보고 (피드백) 간을 맞추는 (수정) 과정을 자동화한 것과 같다.

앞서 언급한 GPT-5.5 유출과 맞물려 보면, OpenAI가 Codex 플랫폼을 위해 더 강력한 모델을 준비하고 있었다는 게 맞물린다. GPT-5.5가 Codex 백엔드에서 이미 테스트되고 있었을 가능성이 높다.

출처: OpenAI Blog - What is Codex?

💭 개발자 관점에서의 정리

두 뉴스를 합쳐서 보면 그림이 그려진다. OpenAI는 단순한 챗봇이 아니라 개발 워크플로우 자동화 플랫폼으로 가고 있고, 그걸 위해 GPT-5.5 같은 다음 세대 모델을 이미 내부에서 돌리고 있었다. Simon Willison이 우연히 그 틈새를 발견한 것.

성능 최적화 관점에서 걱정되는 건 비용이다. Codex처럼 연속적으로 도구 호출하고 상태 유지하려면 토큰 소모가 장난이 아닐 것. 게임 서버에서도 세션 유지 비용 만만치 않은데, LLM 추론 비용이 거기에 곱해지면... 사이드프로젝트에서 쓰기엔 좀 무거울 수 있다. 로컬 모델으로 비슷한 걸 구현하려면 vLLM + 도구 호출 래퍼 만들어야 할 듯.

어쨌든 방향성은 확실하다. 코드 생성 → 코드 실행 → 결과 확인 → 수정 루프가 자동화되는 세계. C++ 게임 프로그래머로서는 반가운 소식인 동시에, 내 역할이 "코드 짜는 사람"에서 "AI 에이전트 감독하는 사람"으로 옮겨갈 수도 있다는 불안도 있다. 당장은 아직 멀었지만.

GPT-5.5는 이미 현실이고, Codex는 그걸 담을 그릇이다. 문제는 그 그릇 값이 얼마일 건지 모르겠다는 거.

GPT-5.5 Codex OpenAI AI Agent Simon Willison Developer Tools 검수실패