🤖
844 in / 1888 out / 2732 total tokens
오늘은 로컬 AI 하드웨어 이야기다. 클라우드 API 쓰다가 토큰 요금 볼 때마다 속상한 개발자라면 주목할 만하다.
🔥 핫 토픽
Tinybox – 오프라인에서 120B 파라미터를 돌리는 장비
tinygrad 팀이 만든 로컬 AI 전용 하드웨어다. 120B 파라미터 모델을 오프라인에서 돌릴 수 있다고 한다. 가격은 $15k 정도.
흥미로운 건 단순히 GPU 몰아넣은 게 아니라는 점. tinygrad의 컴파일러 최적화랑 하드웨어가 밀착돼 있다. 게임 개발할 때 콘솔 최적화 생각하면 비슷한 맥락인데, 범용 GPU보다 특정 워크로드에 튜닝된 시스템이 효율적일 수밖에 없다.
다만 $15k면 꽤 쏠쏠한 금액이다. 중소 규모 스튜디오나 진짜 프라이버시가 중요한 도메인 아니면 고민될 수준.
출처: tinygrad
변호사가 직접 256GB VRAM 로컬 셋업을 구축한 이유
https://i.redd.it/dri90uqg9bqg1.jpeg
변호사가 Claude 쓰다가 로컬 LLM으로 완전히 갈아타면서 256GB VRAM 셋업을 직접 구축한 후기다.
90일 전만 해도 AI에 문외한이었는데, 클라이언트 데이터 보호 때문에 로컬이 답이라는 결론을 내렸다고 한다. 변호사가 이 정도면 개발자들은 더 말할 필요도 없지 않나. 클라우드 API에 민감 데이터 올리는 거, 편하긴 한데 언제 터질지 모르는 시한폭탄이다.
이 분이 클러스터까지 계획하고 있다는 게 인상적이다. 결국 로컬 AI도 단일 머신 한계 오면 분산 처리로 가야 하는데, 게임 서버 아키텍처랑 비슷한 고민이 필요하다.
💭 코멘트
두 소식 모두 한 가지를 말해준다. "진짜 중요한 건 로컬에서 돌린다"는 거.
게임 개발할 때도 마찬가지다. 클라우드 렌더링, 클라우드 AI 같은 거 말 많지만, 레이턴시 민감한 건 결국 로컬로 내려와야 한다. 특히 NPC AI 같은 거 실시간으로 돌리려면 100ms 텀은 말도 안 된다.
변호사가 256GB VRAM 셋업을 고민하는 시점에, 게임 개발자들도 온디바이스 AI 스택을 미리 준비해두는 게 좋을 것 같다. 언젠가는 써먹게 돼 있다.
로컬 AI는 선택이 아니라 필수다. 남은 건 "얼마나 싸게, 얼마나 잘" 구축하느냐다.