AI 업데이트: Anthropic 인프라 확장과 토큰 비용 위기

🤖 1655 in / 3727 out / 5382 total tokens

마이크로소프트조차 AI 비용을 감당 못 하고 있다. 그 와중에 Anthropic은 Colossus2로 GB200 클러스터를 확장한다. 이 두 뉴스를 나란히 놓고 보면, AI 산업의 구조적 모순이 선명하게 드러난다.

🔥 핫 토픽

Microsoft가 내부 Anthropic 라이선스를 전면 취소했다

마이크로소프트가 내부 팀에서 사용하던 Anthropic 라이선스를 취소했다. 이유는 단순하다. 토큰 기반 과금 모델이 연간 예산을 몇 달 만에 날려버렸기 때문이다. "AGI가 인플레이션으로 취소되었다"는 비꼬는 요약이 붙었을 정도로 상황은 심각하다.

이 뉴스가 중요한 이유는, AI의 단가 구조가 여전히 지속 불가능하다는 걸 보여주기 때문이다. 구독형 SaaS라면 월정액으로 예산을 통제할 수 있지만, 토큰 기반 과금은 사용량이 폭증하면 비용도 기하급수적으로 증가한다. 게임 서버 아키텍처 관점에서 말하면, 이건 "동시 접속자 수에 비례해서 과금되는 서버리스"를 무한정 쓰는 것과 같다. 아무리 대기업이라도 한도 없이 토큰을 소모하는 내부 도구를 유지할 수는 없다.

개발자에게 미치는 영향은 직접적이다. 회사에서 Claude API를 쓰고 있다면, 비용 모니터링과 throttle을 지금 당장 구현해야 한다. 단순히 max_tokens만 설정하는 게 아니라, 사용자별 일일 한도, 프롬프트별 예상 비용 계산, 자동 알림 시스템까지 갖춰야 한다. 이건 게임 서버에서 "서버 비용 때문에 매치메이킹 큐를 제한하는 것"과 똑같은 문제다. 기술적으로는 rate limiting과 cost estimation 레이어를 API 앞에 두는 게 기본이 된다.

또 하나 짚어야 할 건, 마이크로소프트가 OpenAI에 수십억 달러를 투자한 회사라는 점이다. 그런데 내부에서 Anthropic 라이선스를 쓰고 있었다는 것 자체가 흥미롭다. 즉, 실무에서는 GPT보다 Claude가 더 나은 경우가 분명히 있었고, 그걸 공식적으로 인정한 셈이다. 이 취소가 비용 때문인지, 아니면 정치적 결정인지도 따져볼 여지가 있다.

출처: The Low Down

Anthropic, Colossus2 확장 — GB200 NVL4 사용

Anthropic이 Colossus2 클러스터를 확장하면서 엔비디아 GB200을 사용한다고 발표했다. GB200은 블랙웰 아키텍처 기반의 데이터센터 GPU로, 기존 H100 대비 메모리 대역폭과 연산 성능이 비약적으로 향상된 칩이다.

이 뉴스는 앞서 언급한 비용 위기와 맞물려 생각해야 한다. Anthropic이 왜 막대한 자본을 인프라에 쏟아붓는가? 바로 토큰 단가를 낮추기 위해서다. GB200 같은 차세대 칩으로 클러스터를 구성하면, 동일한 추론 작업에 드는 전력과 시간을 줄일 수 있다. 결국 단가 경쟁력은 하드웨어 효율에서 나온다. 이건 게임 서버에서 "더 비싼 서버를 쓰지만 단위 처리 비용은 싸진다"는 최적화와 같은 맥락이다.

개발자 관점에서는, Anthropic이 인프라를 늘린다는 건 API 응답 속도와 가용성이 개선될 수 있다는 뜻이다. 특히 Claude의 긴 컨텍스트 윈도우(200K 토큰)를 활용하는 워크로드에서는 GPU 메모리가 병목인 경우가 많은데, GB200의 향상된 메모리 아키텍처가 여기에 직접적으로 도움이 된다. C++ 게임 프로젝트에서 대용량 코드베이스를 Claude에 넣고 리팩토링을 돌릴 때, 응답이 빨라진다면 생산성 차이가 크다.

다만 Colossus라는 이름에서 알 수 있듯, 이건 엄청난 규모의 클러스터다. xAI의 Memphis 데이터센터와 경쟁하는 레벨이다. AI 기업 간의 인프라 경쟁이 본격화되면서, 결국 생존할 수 있는 플레이어는 자본력이 뒷받침되는 소수 기업으로 압축될 가능성이 높다.

출처: Tom Brown (@nottombrown)

📰 뉴스

Google AI 검색, "disregard" 검색 결과를 무시하는 문제

Google의 AI Overviews가 기이한 버그를 보여주고 있다. "disregard"라는 단어를 검색하면, AI가 검색 의도를 이해하지 못하고 엉뚱한 요약을 내놓는다. 검색어 자체의 의미 때문에 AI가 혼란을 일으키는 것이다.

이건 웃기지만 심각한 문제다. LLM이 단어의 의미를 문맥 없이 해석할 때 발생하는 고질적 한계를 보여준다. 게임 개발에서도 비슷한 사례가 있다. NPC 대화 시스템에서 플레이어의 입력에 "무시해", "됐어" 같은 부정어가 들어가면, AI가 이를 시스템 명령으로 해석하거나 완전히 엉뚱한 반응을 보이는 경우가 있다. 프롬프트 엔지니어링으로 어느 정도 해결할 수 있지만, 근본적으로는 모델의 추론 능력에 달린 문제다.

이 뉴스가 시사하는 바는 명확하다. 프로덕션에서 AI를 쓸 때는 edge case 테스트가 필수이다. 게임에서 QA 팀이 기상천외한 플레이를 시도하는 것처럼, AI 시스템에도 의도적으로 이상한 입력을 넣어보는 테스트가 필요하다.

출처: The Verge

문학계, AI 작품에 대비되지 않다

영문학 잡지 Granta와 Commonwealth Short Story Prize에서 AI 생성 작품이 당선된 사건이 발생했다. 2012년부터 이어온 전통 있는 문학상에서 이런 일이 벌어졌다는 건, AI 텍스트 생성 품질이 인간의 창작물과 구별하기 어려운 수준에 도달했음을 의미한다.

게임 개발자 관점에서 보면, 이건 NPC 대사나 퀘스트 텍스트 자동 생성의 현실성을 보여준다. Claude 같은 모델로 충분히 품질 있는 서사를 만들어낼 수 있다는게 증명된 셈이다. 다만 윤리적 문제는 별개다. 문학계에서든 게임계에서든, AI 생성 콘텐츠의 투명한 공개와 크레딧 표시가 필요하다.

흥미로운 지점은, 심사위원들이 AI 작품을 걸러내지 못했다는 것이다. 즉, "AI 탐지 도구"의 신뢰성이 여전히 낮다는 뜻이기도 하다. 이는 게임에서 플레이어 리뷰나 채팅에서 AI 봇을 걸러내는 문제와도 연결된다.

출처: The Verge

Spotify AI 리믹스 도구 — 팬용인가, 문제인가

Spotify가 UMG와 협력하여 AI 기반 리믹스/커버 도구를 출시했다. 사용자가 프롬프트로 기존 곡을 변형할 수 있는 기능이다. "슈퍼팬을 위한 것"이라고 하지만, 이미 인터넷에 범람하는 AI 커버 곡의 생태계를 생각하면 회의적이다.

오디오 AI 기술은 텍스트나 이미지보다 한 차원 복잡하다. 음원의 멜로디, 보컬, 악기를 분리하고 재조합하려면 상당한 모델 성능이 필요하다. 이런 기술이 소비자 도구로까지 내려왔다는 건, 오디오 AI 모델이 상당히 경량화되었음을 시사한다. 게임에서 절차적 오디오 생성이나 실시간 사운드 리믹스에 활용할 수 있는 기술적 기반이 갖춰지고 있다는 뜻이다.

출처: The Verge

마이크로소프트조차 토큰 비용을 못 버티는데, Anthropic은 반대로 인프라에 더 베팅하고 있다. AI의 단가 구조가 바뀌지 않으면, 승자는 결국 인프라를 직접 소유한 자들이다.

Claude Anthropic AI비용 GB200 인프라 토큰과금