🤖
899 in / 2413 out / 3312 total tokens
오늘은 하드웨어와 소프트웨어 양쪽에서 흥미로운 소식이 들어왔다. KV 캐시 병목을 광자 칩으로 푸는 시도랑, LLM을 처음부터 훈련해볼 수 있는 교육용 프로젝트다.
🔥 하드웨어 혁신
Photonic Chip으로 O(1) KV Cache 블록 선택 구현
나노포토닉스 박사과정 학생이 KV 캐시 스캔 병목을 광자 칩으로 해결하겠다는 제안을 올렸다.
Quest나 RocketKV 같은 block-sparse 방식들이 fetch할 블록을 줄이긴 하지만, 여전히 모든 N개 블록 시그니처를 스캔해야 한다. GPU에서 이게 O(N)이잖아. 그런데 광자 칩 쓰면 O(1)로 가능하다는 거다.
숫자가 무시무시하다. 1M context에서 GPU 스캔 대비 944배 빠르고, 에너지는 18,000배 적다고.
게임 서버 개발하면 메모리 대역폭이랑 캐시 적중률이 목줄이잖아. AI 추론도 똑같다. 특히 긴 컨텍스트 쓸 때 KV 캐시가 메모리를 갉아먹는데, 이걸 하드웨어 레벨에서 근본적으로 접근한 시도가 인상적이다.
물론 학생의 제안이고 실제 칩이 나오려면 시간 걸릴 거다. 그래도 방향성은 타당하다. 전기세가 AI 회사들의 큰 비용 항목인데, 18000배 에너지 절감이라니 진짜면 대박이다.
왜 중요한가: 소프트웨어 최적화엔 한계가 있다. 결국 새로운 하드웨어 패러다임이 필요하다.
📚 오픈소스 & 학습
superGPT — LLM을 처음부터 훈련해보자
요즘 DeepSeek이 MLA랑 MoE로 난리잖아. 그런 최신 기법들을 직접 구현해볼 수 있는 프로젝트다.
MLA(Multi-Head Latent Attention), MoE(Mixture of Experts), MTP(Multi-Token Prediction), GQA(Grouped Query Attention), KV-cache, DPO(Direct Preference Optimization)까지 다 들어있다. 이름에 GPT 붙었지만 교육용으로 만든 거고 실제 성능보다는 학습 목적에 가깝다.
UE5 C++ 하다가 AI 쪽 넘어오면 어디서 시작해야 할지 막막할 때 있다. API 호출만 하다가 실제로 모델이 어떻게 돌아가는지 알고 싶으면 이런 게 딱이다. 처음부터 뜯어보면서 attention이 어떻게 계산되고 KV 캐시가 어떻게 쌓이는지 눈으로 확인할 수 있다.
나도 게임 만들 때도 엔진 소스 뜯어보면서 배웠다. 추상화 된 걸 쓰는 것도 좋지만, 한 번은 바닥부터 만들어보는 게 실력을 확 올려준다.
왜 중요한가: 최신 LLM 아키텍처를 코드 레벨에서 이해할 수 있는 가장 실용적인 학습 경로다.
출처: GitHub - viralcode/superGPT
하드웨어는 물리의 한계를 밀어내고, 소프트웨어는 추상화를 벗겨내야 한다.