🤖
1298 in / 4124 out / 5422 total tokens
AI 업데이트: DGX Spark 홈랩 클러스터와 평가 병목 현상
오늘은 두 가지 극단적인 이야기를 다룬다. 한쪽은 '하드웨어를 끝까지 밀어붙이는' 홈랩 빌드고, 다른 한쪽은 '평가에 컴퓨팅이 부족해서' 고통받는 현실이다. 둘 다 결국 같은 문제를 가리키고 있다. 컴퓨팅은 항상 부족하다.
🔥 핫 토픽
16x DGX Spark 클러스터: 집에 2TB 통합 메모리 빌드

Reddit r/LocalLLaMA에서 괴물 같은 홈랩 빌드가 올라왔다. DGX Spark 16대를 묶어서 2TB 통합 메모리 클러스터를 구축한 것이다. 200Gbps FS 스위치 1대, QSFP56 DAC 케이블 16개로 연결했다. 이건 단순한 취미 프로젝트가 아니다. 소규모 AI 스타트업의 인프라 수준이다.
왜 이 뉴스가 중요한가? 로컬 LLM 커뮤니티가 '개인이 운영 가능한 최대 규모'를 계속 갱신하고 있기 때문이다. 1~2년 전만 해도 집에서 70B 파라미터 모델 돌리는 게 꿈 같았다. 지금은 2TB 메모리 클러스터로 405B 이상도 로컬에서 돌릴 수 있는 시대가 됐다. 클라우드 의존도를 낮추려는 움직임이 가속화하고 있다.
게임 개발자 관점에서 보면, UE5 서버 아키텍처랑 묘하게 겹친다. 분산 처리, 메모리 일관성, 네트워크 병목 관리. 클러스터 컴퓨팅은 결국 '얼마나 효율적으로 노드 간 통신을 하느냐'가 핵심이다. 200Gbps InfiniBand급 대역폭을 집에 깔았다는 건, 네트워크 병목을 사실상 해결했다는 의미다. 이정도 인프라면 AI NPC 실시간 추론 서버를 집에서 구동할 수 있다.
실무적으로 주목할 점은 'unified memory'다. DGX Spark의 통합 메모리 아키텍처는 CPU-GPU 간 데이터 이동 오버헤드를 없앤다. 게임 서버에서도 비슷한 최적화를 한다. DMA 전송, 제로카피, 메모리 풀링. 로컬 LLM 실행에 관심 있는 개발자라면, 메모리 계층 구조 최적화가 모델 로딩 속도와 추론 처리량을 결정한다는 걸 체감할 것이다.
하지만 현실적인 한계도 있다. 전기세, 발열, 소음. 16대의 DGX Spark를 집에 돌리면 전기세만 월 100만원 이상 나올 수 있다. 랙 설치, 냉각 시스템, UPS까지 고려하면 '홈랩'이라기보다 '미니 데이터센터'다. 이건 취미를 넘어선 투자다.
출처: Reddit r/LocalLLaMA - 16x DGX Sparks
📰 뉴스
AI 평가(Evaluation)가 새로운 컴퓨팅 병목이다
HuggingFace 블로그에서 핵심적인 문제를 짚었다. AI 모델 평가에 드는 비용과 시간이 감당 안 되는 수준이 되고 있다. 모델 훈련보다 평가가 더 비싸지는 상황이 올 수 있다.
이 뉴스가 중요한 이유는 간단하다. '평가'를 소홀히 하면 프로덕션에서 사고가 난다. 게임 개발에서도 QA 없이 배포하는 게 얼마나 위험한지 잘 알 것이다. AI 시스템도 마찬가데다. 특히 LLM 기반 NPC, 콘텐츠 생성 파이프라인을 게임에 통합할 때, 평가 없이 배포하면 플레이어 경험이 박살난다.
업계 맥락을 보면, 기업들이 '평가 인프라'에 엄청난 투자를 하기 시작했다. Anthropic, OpenAI, Google 모두 내부 평가 팀을 대폭 확대했다. 이유는 명확하다. 모델이 강력해질수록 평가해야 할 차원이 늘어난다. 정확도뿐 아니라 안전성, 편향성, 지시 따르기, 장문 이해력, 멀티모달 처리 등등. 하나의 벤치마크만 통과한다고 '좋은 모델'이 아니다.
개발자 실무 관점에서, 이건 '테스트 자동화' 문제와 정확히 겹친다. 게임 서버 개발할 때 부하 테스트, 회귀 테스트, 통합 테스트 자동화하는 것처럼, AI 모델도 체계적인 평가 파이프라인이 필요하다. HuggingFace가 지적한 건, 이 평가 파이프라인 자체가 너무 무거워졌다는 거다. 70B 모델 한 번 평가하는 데 몇 시간, GPU 시간으로 수백 달러가 드는 상황.
앞서 언급한 DGX Spark 클러스터와 연결되는 지점이 있다. 로컬 인프라를 키우는 이유 중 하나가 바로 이 평가 병목 때문일 수 있다. 클라우드에서 평가 돌리면 비용이 무한정 늘어난다. 차라리 자체 인프라를 구축하는 게 장기적으로 싸다. 물론 초기 투자는 감당하기 힘들지만.
관련 기술 배경을 설명하면, LLM 평가는 단순히 '정답률'을 재는 게 아니다. HumanEval, MMLU, GSM8K, Arena Hard 같은 벤치마크 각각이 다른 능력을 측정한다. 모델-기반 평가(LLM-as-a-Judge)까지 동원해야 하는 경우도 있다. 즉, '평가하기 위해 또 다른 AI 모델을 돌려야 하는' 재귀적 상황. 이게 비용을 폭발시키는 원인이다.
솔직히 말하면, 나도 사이드 프로젝트에서 이 문제에 부딪혔다. 파인튜닝한 모델이 '더 좋아졌는지' 확인하려면 벤치마크를 돌려야 하는데, 로컬 GPU로는 너무 느리다. 결국 클라우드 GPU를 빌려서 평가하는데, 이것만으로도 몇십 달러가 순식간에 증발한다. 평가 비용 최적화는 이제 선택이 아니라 필수다.
출처: HuggingFace Blog - AI evals are becoming the new compute bottleneck
두 뉴스의 연결고리
두 이야기는 결국 같은 문제의 양면이다. '컴퓨팅 수요가 폭발하고 있다.' 한쪽은 인프라를 늘려서 대응하고, 다른 쪽은 평가 최적화로 대응하려 한다. 둘 다 필요하다. 아무리 DGX Spark를 많이 사도 평가 파이프라인이 비효율적이면 의미 없다. 반대로 평가만 최적화해도 인프라가 부족하면 결국 병목이 생긴다.
게임 개발에서도 비슷하다. 서버 성능을 아무리 끌어올려도 비효율적인 쿼리가 있으면 망한다. 프로파일링, 최적화, 인프라 확장의 삼위일체가 필요하다. AI 시스템도 이제 같은 단계에 진입했다.
로컬에서 2TB 메모리 클러스터를 돌리는 시대에, 평가 한 번 돌리는 비용이 여전히 아프다. 컴퓨팅은 항상 부족하고, 최적화는 영원히 끝나지 않는다.