ai signal

AI 업데이트: 온디바이스 AI의 무게와 클라우드 API의 가치

R
이더
2026. 05. 06. PM 07:58 · 10 min read · 0

🤖 1269 in / 4638 out / 5907 total tokens

AI 업데이트: 온디바이스 AI의 무게와 클라우드 API의 가치

🔥 핫 토픽

Chrome이 사용자 PC에 4GB Gemini Nano를 강제 다운중이다

Google Chrome이 사용자 동의 없이 브라우저 시스템 폴더에 Gemini Nano 모델을 자동 다운하고 있다는 보도다. 일부 사용자 경우 4GB에 달하는 저장공간을 차지하고 있다. 사파리나 엣지 같은 경쟁 브라우저도 온디바이스 AI를 도입 중이지만, 이 정도 용량을 강제로 밀어넣는 건 사용자 경험 측면에서 꽤 파격적인 선택이다.

이게 왜 중요하냐면, 온디바이스 AI와 클라우드 AI 간의 경쟁 구도가 저장공간이라는 물리적 제약과 맞물리고 있기 때문이다. Anthropic의 Claude API는 클라우드 기반으로 동작해서 클라이언트 쪽 저장공간을 전혀 차지하지 않는다. 반면 Google은 브라우저 자체에 모델을 내장하려 하고 있고, 그 대가가 4GB다. 개발자 입장에선 이 차이가 꽤 크게 다가온다.

게임 개발할 때도 마찬가지다. 언리얼 엔진 프로젝트만 해도 수십 GB가 기본인데, 여기에 브라우저가 4GB를 더 먹으면 개발 머신의 SSD 압박이 상당하다. 특히 AI 보조 도구를 위해 Chrome을 띄워놓는 개발자라면, AI 모델이 백그라운드에서 저장공간을 갉아먹고 있다는 건 꽤 불쾌한 발견일 것이다.

Anthropic 측에서는 이런 온디바이스 트렌드에 대해 공식 코멘트를 한 적은 없다. 하지만 Claude API의 경쟁력은 "가벼운 클라이언트 + 강력한 서버"라는 구조에 있다. 4GB 모델을 로컬에 깔 필요 없이, API 호출만으로 더 높은 품질의 응답을 받을 수 있다는 건 클라우드 AI의 명확한 장점이다.

물론 온디바이스 AI의 장점도 있다. 네트워크 지연이 없고, 프라이버시가 보장되며, 오프라인에서도 동작한다. 하지만 그 대가가 4GB라면, 일반 사용자와 개발자 모두에게 "정말 로컬에서 돌려야만 하는가?"라는 질문을 던지게 만든다.

출처: The Verge


💡 개발자 관점 분석

온디바이스 vs 클라우드: 어디서 추론을 돌릴 것인가

이 뉴스를 읽으면서 든 생각은, AI 배포 아키텍처 선택이 결국 트레이드오프 문제라는 거다. 게임 서버 아키텍처와 비슷하다. 클라이언트에 연산을 맡기면 서버 부하는 줄지만, 클라이언트 사양 요구가 올라간다. 반대로 서버에서 다 처리하면 클라이언트는 가벼워지지만, 인프라 비용과 레이턴시가 문제가 된다.

Gemini Nano 같은 소형 모델을 브라우저에 내장하는 건, Google 입장에선 서버 추론 비용을 아끼면서도 AI 기능을 제공하려는 전략이다. 하지만 4GB는 결코 가볍지 않다. 스마트폰이나 저가형 노트북 사용자에겐 치명적일 수 있다.

Anthropic의 Claude API를 쓰는 개발자라면 이런 고민을 안 해도 된다. 클라이언트는 그냥 HTTP 요청을 날리면 되고, 무거운 연산은 Anthropic 서버에서 처리한다. 대신 API 비용이 들고, 네트워크가 끊기면 AI 기능도 멈춘다.

사이드프로젝트로 AI 도구를 만들 때, 나는 보통 클라우드 API를 선택한다. 로컬 모델을 띄우는 것도 해봤지만, GPU 메모리 관리랑 모델 업데이트 귀찮음이 생각보다 크다. Claude API는 그냥 키만 넣고 호출하면 끝이니까, 개발 속도 면에서 압도적이다.

다만 엣지 케이스도 있다. 실시간 반응이 필요한 게임 내 NPC AI 같은 경우엔, 200ms+ 레이턴시는 치명적이다. 이럴 땐 로컬 모델이나 하이브리드 방식을 고려해야 한다. 아직은 완벽한 정답이 없는 영역이다.


브라우저가 AI 런타임이 되는 세상

Chrome이 Gemini Nano를 내장한다는 건, 브라우저가 단순한 문서 렌더러가 아니라 AI 런타임이 되고 있음을 의미한다. WebGPU와 WASM의 발전 덕분에, 브라우저에서도 꽤 무거운 연산을 돌릴 수 있게 됐다.

이건 개발자에게 양날의 검이다. 한편으로는 브라우저만 있으면 AI 기능을 쓸 수 있으니 배포가 편해진다. 설치 프로그램 없이, URL만 공유하면 되니까. 다른 한편으로는, 브라우저별로 AI 성능이 제각각이 될 수 있다. Chrome은 Gemini Nano를 쓰고, Edge는 Copilot을 쓰고, Safari는... 아직 뭔가 하고 있나? 이 fragmentation은 웹 표준화 논의로 이어질 것이다.

Anthropic은 여기서 어떤 포지션을 가져갈까? 당장은 클라우드 API에 집중하는 게 맞다. 브라우저 내장 AI와 경쟁하기보다는, 상호보완적으로 접근할 가능성이 높다. 예를 들어, 간단한 작업은 온디바이스 모델이 처리하고, 복잡한 추론은 Claude API를 호출하는 하이브리드 구조 말이다.

실제로 이미 몇몇 오픈소스 프로젝트에서 이런 패턴을 실험하고 있다. 작은 모델로 빠르게 1차 응답을 생성하고, 필요할 때만 대형 모델 API를 호출하는 방식이다. 레이턴시와 비용의 균형을 잡는 전략이다.

출처: The Verge


🔍 기술 배경

Gemini Nano가 뭔데 4GB나 되는가

Gemini Nano는 Google의 경량 언어모델이다. "Nano"라는 이름에서 작을 것 같지만, 4GB면 결코 작지 않다. 참고로 Gemma 2B 모델이 양자화 후 약 1.4GB, Phi-3-mini가 3.8B 파라미터에 양자화하면 2~3GB 정도다. 4GB면 꽤 제법 큰 모델을 내장하고 있다는 뜻이다.

문제는 이게 사용자 동의 없이 다운된다는 거다. Chrome 설정에서 chrome://components를 확인하면, OptimizationGuide 항목으로 모델이 숨어있다. 일반 사용자는 이런 게 있는지도 모르고, SSD 용량이 줄어드는 이유를 모른 채 지낸다.

게임 개발에 비유하면, 게임 클라이언트가 백그라운드에서 4GB 패치를 아무 알림 없이 받는 것과 같다. 사용자 경험 측면에서는 상당히 문제가 있는 접근이다. 최소한 알림이라도 띄워주거나, 설정에서 끌 수 있게 해야 한다.

Anthropic의 Claude 같은 클라우드 서비스는 이런 문제가 아예 없다. 모델 크기가 수십~수백 GB여도 사용자 디스크와는 무관하다. 서버 인프라 비용은 Anthropic이 부담하고, 사용자는 API 호출 비용만 지불하면 된다. 클라우드 AI의 근본적 장점이다.

다만 Google의 의도도 이해는 된다. Chrome에 AI 기능을 넣으려면, 오프라인에서도 동작해야 하고, 프라이버시를 내세울 수도 있어야 한다. 그러려면 로컬 모델이 필요하다. 하지만 그 구현 방식이 좀 더 투명했어야 한다.


스토리지 최적화 관점에서 보기

UE5 개발자로서 4GB라는 숫자에 민감해지는 건, 프로젝트 용량 관리가 일상이기 때문이다. 콘텐츠 하나 추가할 때마다 패키지 사이즈가 어떻게 변하는지 추적하고, 사용하지 않는 에셋을 정리하는 게 루틴이다.

이 관점에서 Chrome의 4GB 모델은 비효율적으로 보인다. 모든 사용자가 온디바이스 AI 기능을 쓰는 것도 아닌데, 기본적으로 내려받는 건 리소스 낭비다. 최소한 opt-in 방식이거나, 필요할 때만 다운받는 lazy loading 방식이어야 한다.

실제로 Chrome 설정에서 "Make searches and browsing better" 옵션을 꺼도 모델이 다운될 수 있다는 보고가 있다. 이건 설정 존중 문제다. 게임에서도 사용자가 텍스처 품질을 낮췄는데 고해상도 텍스처를 강제로 로드하면 욕먹는 거랑 같다.

앞으로 브라우저 AI 모델 관리가 어떻게 될지 지켜볼 만하다. 모델 압축, 조건부 다운로드, 버전 관리 등 최적화 영역이 많다. Anthropic은 이런 고민을 클라우드로 추상화해버렸고, 그게 클라우드 API의 강점이다.


📊 Anthropic 관점에서 바라보기

Claude API의 포지셔닝이 더 명확해졌다

이 사건은 Claude API의 가치를 오히려 부각한다. "AI를 쓰고 싶은데, 4GB 모델을 내 PC에 깔고 싶지는 않다"는 니즈가 확실히 존재한다. 특히 기업 환경에서는 보안 규정 때문에 승인되지 않은 소프트웨어 설치가 어려운 경우도 많다.

Claude API는 그냥 HTTPS 엔드포인트다. 방화벽 규칙만 열려있으면 되고, 추가 설치가 필요 없다. 이건 기업 채택 장벽을 크게 낮춘다.

또한 모델 업데이트 문제도 있다. Chrome에 내장된 Gemini Nano는 버전업이 될 때마다 또 다운받아야 한다. 4GB를 여러 번 받게 될 수도 있다. Claude API는 그런 거 없다. 항상 최신 모델을 쓸 수 있고, 사용자는 아무것도 안 해도 된다.

다만 가격 경쟁력은 온디바이스가 유리하다. 한 번 다운받으면 추론은 무료니까. Claude API는 호출당 비용이 든다. 대량 사용 시 이 비용은 무시 못할 수준이다. 그래서 하이브리드 접근이 현실적인 대안이다.


온디바이스 AI의 저장공간 침범은, 클라우드 API의 "가볍고 강력하다"는 가치를 역설적으로 증명하고 있다. 4GB를 들이밀며 얻는 오프라인 동작이 과연 그만큼의 가치가 있는지, 각자의 환경에 맞게 판단해야 할 시점이다.

← 이전 글
AI 업데이트: DNS 인프라 장애와 벤치마크 조작 방지