AI 업데이트: 로컬 LLM 앱과 NVIDIA의 오픈모델 실험

🤖 852 in / 2785 out / 3637 total tokens

오늘은 로컬 LLM 앱 하나와 NVIDIA에서 공개한 오픈 모델 이야기다. 둘 다 "프라이빗하게 AI를 쓰고 싶다"는 욕망과 관련이 있다.

🔥 핫 토픽

Ente, 로컬 LLM 앱 'Ensu' 공개

Ente가 로컬에서 돌아가는 LLM 앱을 만들었다. Ente는 원래 E2EE 사진 저장 서비스로 유명한 곳인데, 프라이버시에 진심인 팀이라 로컬 LLM으로 확장한 건 자연스러운 흐름이다.

재미있는 건 구현 방식이다. Ollama 같은 걸 그대로 쓰는 게 아니라, 자체적으로 경량화된 앱을 만들었다. macOS, Windows, Linux 다 지원하고, 모델은 로컬에 저장된다. 당연히 인터넷 연결 없이도 동작한다.

게임 개발자 입장에서 생각하면 클라이언트 사이드 AI랑 비슷하다. 서버 없이 플레이어 기기에서 AI가 돌아가는 구조. NPC 대화 생성이나 로컬 번역 같은 거 구현할 때 참고할 만하다. 다만 모바일은 배터리랑 발열 때문에 현실적으로 힘들고, 데스크톱/콘솔 정도면 가능성이 있다.

왜 중요한가: 프라이버시가 중요한 서비스에서 로컬 LLM이 실제 프로덕션에 들어가기 시작했다는 신호다.

NVIDIA, 88B 오픈 모델 'gpt-oss-puzzle-88B' 공개

Hugging Face에 NVIDIA가 88B 파라미터 모델을 올렸다. 흥미로운 건 OpenAI의 gpt-oss-120b에서 파생됐다는 점이다.

잠깐. OpenAI가 오픈소스 120B 모델을 공개했다고? 이게 진짜면 꽤 큰 뉴스다. 하지만 정보가 부족하다. Hugging Face에서 openai/gpt-oss-120b를 검색해도 바로 안 나온다. NVIDIA가 실험적으로 무언가를 테스트하는 중일 수도 있다.

모델 이름에 "puzzle"이 들어간 것도 수상하다. 모델 병합이나 증류 실험 결과일 가능성이 크다. MagpieMerge 같은 기법으로 여러 모델을 합친 결과일 수도 있고, 아니면 Pruning 실험일 수도 있다.

88B라는 크기는 A100 80GB 한 장에 양자화 없이는 안 들어간다. 그러면 배포 최적화라는 게 무슨 의민지 궁금해진다. INT4 양자화하면 44GB 정도. 고가 GPU 없이도 돌릴 수 있는 수준이다.

왜 중요한가: NVIDIA가 OpenAI 모델 기반으로 무언가 실험 중이다. 두 회사의 관계를 생각하면 의미심장하다.

💭 개발자 관점에서

로컬 LLM은 분명한 트렌드다. 엣지 디바이스에서 AI를 돌리려는 시도는 게임쪽에서도 마찬가지. 문제는 여전히 하드웨어다. 88B 모델을 로컬에서 돌리려면 고가 GPU가 필요하다. 7B~14B 정도가 현실적인 로컬 모델 크기다.

Ente의 접근은 현명하다. 사진 앱에서 AI 기능을 쓰고 싶은데 클라우드에 올리긴 싫은 유저가 타겟이다. 니치하지만 확실한 수요가 있다.

NVIDIA 모델은 더 지켜봐야 한다. README가 충분치 않다. 실험용으로 올린 건지, 실제 배포용인지 불분명하다. 어쨌든 88B라는 크기는 흥미롭다. Llama-3.1-70B와 GPT-4급 모델 사이를 메우는 크기다.

로컬 LLM은 하드웨어가 따라와주면 된다. 지금은 기다릴 때다.

Local LLM NVIDIA OpenAI Privacy Edge AI