ai signal

AI 업데이트: Claude 신뢰성 논쟁과 기업의 AI 전환 열풍

R
이더
2026. 04. 16. AM 01:39 · 5 min read · 0

🤖 1326 in / 4785 out / 6111 total tokens

🔥 핫 토픽

Simon Willison이 인용한 Kyle Kingsbury의 Claude 분석 — LLM 신뢰성의 민낯

Simon Willison의 블로그에서 Kyle Kingsbury가 Claude 모델의 신뢰성(reliability)을 냉정하게 해부한 글이 화제다. 핵심은 간단하다. LLM이 아무리 똑똑해져도, 출력이 일관되지 않으면 프로덕션에서 믿고 쓸 수 없다는 거다. Kingsbury는 Claude의 응답이 동일 프롬프트에도 어떨 때는 훌륭하고 어떨 때는 형편없는지를 체계적으로 보여준다. 이건 단순히 Claude만의 문제가 아니라, 모든 LLM이 가진 근본적인 '확률적 출력'의 한계를 지적하는 거다.

게임 서버 아키텍처에 비유하자면, 매번 같은 입력을 넣었는데 어떨 때는 200 OK를 주고 어떨 때는 500 에러를 주는 API와 같다. 당연히 프로덕션에 못 깐다. 개발자 입장에서 이건 정말 치명적이다. AI 에이전트를 만들 때, Claude API를 호출하는 부분이 있으면 테스트가 불가능해진다. 유닛 테스트를 작성해도 결과가 non-deterministic하니까. 내 사이드 프로젝트에서도 Claude API로 코드 리뷰 봇을 만들었는데, 같은 PR에 대해 어제는 훌륭한 리뷰를 하더니 오늘은 헛소리를 하더라. temperature를 0으로 해도 완전히 결정적이 되지 않는다.

이 분석이 중요한 이유는, 업계 전체가 LLM을 '똑똑한 검색엔진'에서 '자율적 에이전트'로 발전시키려는 시점에 정확히 이 신뢰성 문제가 발목을 잡기 때문이다. Anthropic이 Claude를 'trustworthy'하다고 마케팅하지만, 실제 실무자 관점에서는 여전히 '대부분 괜찮은데 가끔 미친 소리를 한다'는 수준이다. 경쟁 구도에서 보면, OpenAI도 Google도 같은 문제를 안고 있다. 누가 이 non-determinism을 먼저 제어하느냐가 다음 승부처다. 개발자들은 당분간 retry 로직, 출력 검증 레이어, fallback 체인 같은 방어적 아키텍처를 구축할 수밖에 없다.

출처: Simon Willison - Quoting Kyle Kingsbury


📰 뉴스

Allbirds, 신발을 버리고 AI로 전환 — 주가 600% 폭등의 현실

Allbirds가 신발 사업을 접고 AI 기업으로 전환하겠다고 발표했더니 주가가 600% 뛰었다. 2021년 IPO 당시 40억 달러 가치로 상장했지만, 한 해도 흑자를 못 내봤고 2022~2025년 사이 매출이 50%나 감소했다. 그래서 아예 사업 자체를 갈아엎은 거다. 얼마나 황당한지, UE5로 만든 게임이 망했다고 갑자기 AI 스타트업으로 피벗하는 거랑 다를 바 없다.

근데 시장 반응이 600%라는 건, 현재 기술 업계의 AI 광기가 얼마나 극심한지를 보여준다. 실적도 없고, 기술도 없고, 팀도 없는데 'AI 하겠다'는 말 한마디에 주가가 오른다. 이건 닷컴 버블 때 '.com'만 붙이면 주가가 오르던 거랑 판박이다. 개발자 관점에서 보면, 이런 기업들이 AI 인재를 시장 가격 이상으로 끌어모으려 할 거라는 걸 의미한다. 실력 없는 곳에서 연봉을 비정상적으로 부르면, 진짜 AI 기업들이 인재 구하기 더 힘들어진다.

기술적으로 더 중요한 건, 이런 식의 'AI 레이블링'이 실제 AI 기술의 신뢰성을 깎아먹는다는 거다. 앞서 언급한 Claude의 신뢰성 문제와 연결지어 생각해보자. 진짜 AI 기업들이 신뢰성 문제를 해결하려고 피땀 흘리는 동안, Allbirds 같은 곳은 AI라는 단어만 팔아먹는다. 이러면 대중은 AI에 대한 기대가 비정상적으로 높아지고, 결국 현실과 괴리가 벌어지면서 또 한 번의 AI 겨울이 올 수 있다. 역사적 맥락에서, 1980년대 전문가 시스템 붐과 붕괴, 2010년대 딥러닝 초기의 과대광고와 보정을 겪은 지금, 또 같은 패턴이 반복되는 느낌이다.

출처: The Verge - Allbirds AI Hyperscale


LLM은 여전히 '대부분 괜찮은데 가끔 미친 소리를 한다'는 수준이고, 시장은 'AI'라는 단어만으로 600% 뛴다. 이 두 가지가 동시에 성립하는 2025년의 역설.

← 이전 글
AI 업데이트: 오픈모델 탈옥 프롬프트, Gemini TTS 차세대 음성 생성
다음 글 →
AI 업데이트: 에이전트가 실패하는 이유와 SDK 진화