ai signal

AI 업데이트: Anthropic 캐시 TTL 하향 논란

R
이더
2026. 04. 13. AM 12:27 · 4 min read · 0

🤖 1207 in / 2510 out / 3717 total tokens

Anthropic이 3월 6일에 조용히 캐시 TTL을 하향 조정했다. Claude API를 쓰는 개발자들 사이에서 상당한 반발이 일고 있다.

🔥 핫 토픽

Anthropic, Cache TTL을 3월 6일에 하향 조정

이게 왜 중요한가:

Anthropic의 Claude API는 프롬프트 캐싱(prompt caching)이라는 기능을 제공한다. 동일한 컨텍스트를 반복해서 보낼 때, 입력 토큰 비용을 최대 90%까지 아껴주는 핵심 기능이다. 이 캐시의 유효 시간(TTL, Time-To-Live)이 알림 없이 줄어들었다는 게 문제의 핵심이다.

게임 서버 개발하면서 캐시 TTL 조정하는 건 흔한 일이다. Redis에서 세션 만료 시간을 30분에서 5분으로 줄이면, 그만큼 캐시 미스(cache miss)가 늘어나고 DB 부하가 증가한다. Claude API에서도 똑같은 일이 벌어진 셈이다. TTL이 짧아지면 캐시가 더 자주 만료되고, 개발자는 더 많은 토큰을 정가로 결제해야 한다.

특히 Claude Code 같은 코딩 어시스턴트 도구에 직격탄이다. 대화 컨텍스트를 유지하면서 긴 코드베이스를 주고받아야 하는데, 캐시가 자주 만료되면 매번 전체 컨텍스트를 재전송해야 한다. 비용이 배 이상 뛸 수 있는 구조다. 이 GitHub 이슈에 233명이 반응한 이유가 있다.

실무 관점에서의 영향:

사이드 프로젝트로 AI 에이전트를 운영 중이라면, 비용 구조를 다시 계산해야 한다. 이전에는 시스템 프롬프트와 도구 정의를 캐싱해두면 몇 시간 동안 비용 절감 효과가 유지됐다. 이제는 더 자주 캐시가 깨지니까, 호출 패턴을 재설계해야 할 수도 있다.

해결책으로는几가지가 있다. 첫째, 배치 처리를 늘려서 한 번에 많은 요청을 몰아서 보내는 방식. 둘째, 캐시가 살아있는 동안 최대한 많은 후속 질의를 밀어 넣는 패턴. 셋째, 다른 프로바이더(OpenAI, Google 등)의 캐싱 정책과 비교해서 마이그레이션을 고려하는 것.

Anthropic 측은 아직 공식적으로 이 변경에 대해 발표하지 않았다. API 문서에도 TTL 변경 이력이 명확히 기록되지 않은 것으로 보인다. 투명성 측면에서 상당히 아쉬운 부분이다. 게임 서비스라면 패치 노트라도 남기지 않나.

기술 배경 설명:

프롬프트 캐싱은 LLM API에서 비용 최적화의 핵심 기술이다. LLM 추론은 입력 토큰을 처리할 때 Key-Value(KV) 캐시라는 중간 결과물을 생성한다. 이 캐시를 재사용하면, 동일한 프리픽스(prefix)를 가진 요청에서 반복 계산을 건너뛸 수 있다. 입력 토큰 처리 비용이 90%까지 줄어드는 이유가 이것이다.

하지만 KV 캐시는 GPU 메모리(RAM)를 상당히 많이 먹는다. 컨텍스트가 길어질수록 메모리 사용량이 기하급수적으로 증가한다. Anthropic 입장에서는 수십만 사용자의 캐시를 GPU에 올려두는 게 인프라 비용 압박으로 다가왔을 것이다. TTL을 줄여서 메모리를 더 빨리 해제하면, 동시 처리 용량을 늘릴 수 있다.

문제는 이게 "가격 인상"과 같은 효과라는 거다. 겉으로는 API 가격이 안 올랐지만, 캐시 히트율이 떨어져서 실제 지불 금액은 늘어난다. 슬쩍 비용을 전가한 셈이다.

출처: GitHub - Anthropic Claude Code Issue #46829


이 이슈가 시사하는 바가 크다. AI API 프로바이더에 의존하는 서비스를 만들 때, 프로바이더의 정책 변경 하나에 비용 구조가 흔들릴 수 있다는 걸 보여준다. 게임 서버도 AWS 요금 인상이나 Redis 라이선스 변경에 대비해야 하듯, AI 서비스도 멀티 프로바이더 전략을 고려해야 할 시점이다.

Anthropic의 조용한 TTL 단축은 "API 비용은 프로바이더 마음대로"라는 현실을 다시 일깨워줬다. 캐시 히트율 모니터링, 지금 당장 설정하자.

← 이전 글
AI 업데이트: 바이브 코딩의 현실과 인지 아키텍처
다음 글 →
Claude Code가 10번 업데이트되는 동안 바뀐 것들