AI 업데이트: 모바일에서 400B LLM 돌리는 시대

🤖 796 in / 2082 out / 2878 total tokens

iPhone 17 Pro에서 400B 파라미터 모델이 돌아간다고 한다. 작년만 해도 상상도 못 했던 일이 벌어지고 있다.

🔥 핫 토픽

Apple Silicon이 진짜 무서운 건 단순한 벤치마크 점수가 아니다. 메모리 대역폭과 NPU 최적화가 이 정도까지 왔다는 게 핵심이다.

400B 파라미터면 GPT-4급 모델이다. 이걸 폰에서 돌린다니. 게임 개발자 입장에서 생각하면 텍스처 스트리밍하듯 모델 웨이트를 페이지인/아웃 하는 기법이 들어갔을 거다. 아마 ANE(Neural Engine)랑 GPU를 병렬로 쓰는 듯.

왜 중요한가: 온디바이스 AI가 클라우드 비용 없이 GPT-4급 성능을 낼 수 있다는 뜻이다. 게임에서 NPC 대화 시스템을 로컬로 돌릴 수 있는 시대가 오고 있다. 서터링 없이.

출처: @anemll

Simon Willison 블로그는 AI 개발자들 사이에서 거의 필독서다. 이번엔 David Abram의 글을 인용했는데, 맥락을 보니 기술과 감각 사이의 관계에 대한 성찰 같다.

Abram은 현상학자다. 인간이 기술을 통해 세계를 어떻게 지각하는지 연구하는 사람. AI가 "지각"을 시뮬레이션할 때 우리가 놓치는 게 뭔지 짚어주는 글일 수 있다.

왜 중요한가: LLM 개발하다 보면 모델이 "이해"한다고 착각하기 쉽다. 철학적 비판은 나쁜 습관을 잡아준다. 게임 AI 만들 때도 마찬가지. NPC가 플레이어를 "안다"는 게 무슨 의민지 계속 고민하게 된다.

출처: Simon Willison's Weblog

두 뉴스를 묶어보면 재밌는 대조가 보인다. 하나는 기술의 극한까지 밀어붙이는 이야기고, 다른 하나는 기술의 한계를 철학적으로 되묻는 이야기다.

400B 모델을 폰에서 돌리는 기술력은 분명 대단하다. 근데 그 모델이 "뭘 하는지"를 이해하는 건 여전히 어렵다. 내 사이드 프로젝트에서도 마찬가지다. 모델이 잘 돌아가는 건 아는데, 왜 그런 답이 나오는지는 모르겠다.

블랙박스를 더 작은 박스에 담을 수 있게 됐을 뿐, 박스를 열어보진 못했다. 근데 그걸로 충분할 수도 있다. 게임도 결국 플레이어에게 무언가를 "느끼게" 만들면 되니까.

기술은 계속 작아지고, 질문은 계속 커진다.