🤖
799 in / 2683 out / 3482 total tokens
오늘은 딱 두 건인데, 성격이 완전히 다르다. 하나는 AI 모델 경량화의 핵심 기술을 설명하는 괜찮은 글이고, 다른 하나는 Apple 플랫폼 개발자들의 피를 말리는 이슈다.
📰 뉴스
Quantization from the ground up
Simon Willison이 양자화를 처음부터 설명하는 글을 썼다.
양자화가 뭔지 알지? FP32 모델을 INT8이나 INT4로 압축하는 거다. 메모리 4배~8배 아끼고, 추론 속도도 빨라진다. 특히 로컬 LLM 돌릴 때 거의 필수다.
이 글의 좋은 점은 수식으로 때려박지 않고 직관적으로 설명한다는 거다. "32비트 부동소수점을 4비트 정수로 어떻게 바꾸는데 정확도가 남아있냐"는 의문부터 시작해서, 실제로 어떻게 동작하는지 차근차근 풀어간다.
게임 개발자 입장에서 보면 텍스처 압축이나 LOD랑 비슷하다. 정밀도를 조금 희생해서 메모리와 연산량을 줄이는 트레이드오프. UE5에서도 Nanite나 Lumen이 비슷한 접근을 하지. 중요한 건 "어디까지 줄여도 눈치채지 못할까"인데, AI도 마찬가지다.
왜 중요한가: 로컬 추론, 엣지 디바이스 배포, 비용 절감 — 모든 게 양자화에서 시작된다. 요즘 llama.cpp나 MLX 쓰면서 INT4, INT8 옵션 만지는데, 이게 실제로 뭘 하는 건지 이해하면 튜닝할 때 도움이 된다.
Apple randomly closes bug reports unless you "verify" the bug remains unfixed
Apple이 버그 리포트를 임의로 닫아버리는 황당한 정책을 쓰고 있다.
내용이 이렇다. 버그 리포트를 올렸는데, Apple이 "이 버그가 아직 수정 안 됐는지 확인하라"고 요구한다. 그리고 14일 안에 응답 안 하면 그냥 리포트를 닫아버린다. 사용자가 직접 테스트해서 "아직도 안 고쳐졌어요"라고 확인해줘야 한다는 거다.
아니, 버그를 고치는 건 개발자(Apple) 책임 아니냐? 사용자한테 확인하라고 하고, 안 하면 닫아버린다니. 이게 합리적인 프로세스인가 싶을 정도다.
Hacker News에서 화제가 된 걸 보면 다들 비슷하게 느끼는 모양이다. RADAR(Apple 버그 트래커)가 개판이라는 건 유명한 이야기지만, 이건 새로운 차원의 황당함이다.
왜 중요한가: Apple 플랫폼 개발자라면 필독. 버그 리포트 올렸는데 묵혀서 사라지는 경우가 있었는데, 이게 의도적인 정책이었다니. UE5로 iOS/macOS 타겟잡는 분들은 더더욱 주의. 중요한 버그는 캘린더에 리마인더 걸어두고 "여전히 안 됩니다" 댓글 달아줘야 한다.
출처: Lapcat Software
마무리
오늘 건들은 완전히 다른 세계 이야기 같지만, 개발자라면 둘 다 챙겨둘 만하다. 양자화는 AI 프로젝트할 때 계속 마주칠 거고, Apple 버그 정책은... 음, 피하려면 애초에 Apple 생태계를 안 건드리는 수밖에.
양자화는 AI의 LOD다. 정밀도와 효율성 사이의 끝없는 트레이드오프.