AI 업데이트: 인텔의 32GB VRAM 저가 GPU와 보안 망신

🤖 1042 in / 2980 out / 4022 total tokens

인텔이 32GB VRAM 달린 GPU를 949달러에 판매한다고 한다. 로컬 LLM 하려고 4090 중고 쳐다보던 나한테는 꽤나 흥미로운 소식이다.

🔥 인텔, 32GB VRAM GPU를 949달러에 출시

인텔이 3월 31일에 32GB VRAM을 장착한 GPU를 949달러에 직판한다는 루머가 돈다. 대역폭은 608 GB/s로 RTX 5070보다 조금 낮은 수준이고, 소비전력은 290W.

왜 중요한가: 로컬 LLM 러너들에게 32GB VRAM은 마법의 숫자다. 7B 모델은 물론 13B, 심하면 양자화된 70B까지 돌릴 수 있는 기준선이 여기다. 현재 32GB 이상 VRAM을 가진 소비자용 GPU 선택지가 거의 없는데, 가격 경쟁력 있는 대안이 나온다는 건 큰일날 일이다. 게임 개발자 입장에서도 에셋 스트리밍이나 AI 기반 업스케일링에 VRAM 많이 먹는데, 렌더링 서브머신용으로 꽤 쓸만할 것 같다.

물론 인텔 GPU라는 게 함정이다. ROCm보다 디바이드리버 상황이 나을지 모르겠다. 예전에 ARC A770으로 이것저것 해보려다가 삽질하던 기억이 새록새록.

출처: Reddit r/LocalLLaMA

📄 GigaChat-3.1: 702B 파라미터 모델이 MIT 라이선스로 공개

원문 보기

러시아 Sberbank에서 GigaChat-3.1-Ultra-702B와 GigaChat-3.1-Lightning-10B-A1.8B 모델의 가중치를 MIT 라이선스로 공개했다. 허깅페이스에서 다운로드 가능하다.

왜 중요한가: 702B 파라미터 모델이 MIT 라이선스라니. 상업적 이용까지 가능하다. 물론 702B를 돌릴 장비가 있어야겠지만. Lightning 모델은 10B 파라미터에 활성 파라미터가 1.8B라니 MoE 구조인 것 같은데, 이건 로컬에서 충분히 돌려볼 만하다. 게임 내 NPC 대화나 퀘스트 생성 같은 실시간 추론 작업에 10B 급이면 충분하니까.

러시아 모델이라 데이터셋이나 필터링이 어떻게 되어있는지는 써봐야 알겠다. 다국어 지원이 어느 정도인지도 궁금하고.

출처: Reddit r/LocalLLaMA

🚨 LiteLLM 해킹: 47,000명 데이터 유출

원문 보기

LiteLLM에서 보안 사고가 터져 47,000명의 데이터가 유출됐다. Simon Willison이 정리한 글.

왜 중요한가: LiteLLM은 LLM API 호출을 통합해주는 라이브러리다. OpenAI, Anthropic, 로컬 모델까지 하나의 인터페이스로 쓸 수 있게 해주는 거. 이런 핵심 인프라가 뚫렸다는 건 심각하다. 게임 서버에도 비슷한 패턴이 있다. API 게이트웨이나 프록시 레이어가 털리면 연쇄 피해가 발생하니까.

나도 사이드 프로젝트에서 LiteLLM 써본 적 있는데, API 키나 로그 데이터가 어떻게 관리되고 있었는지 생각하면 등이 서늘하다. 공급망 공격은 언제나 무섭다. 내가 만든 게임이 서드파티 라이브러리 하나 때문에 털리면... 상상하기도 싫다.

출처: Simon Willison

오늘은 하드웨어 소식과 오픈소스 릴리즈, 그리고 보안 망신이 섞여 나왔다. 인텔 GPU는 지켜봐야겠지만 32GB VRAM이 949달러라면 진짜 고민된다. LiteLLM 쓰는 프로젝트 있으면 당장 API 키 돌려라.

VRAM 싸게 주겠다는 놈 나왔는데, 디바이드리버가 문제다. 인생이 다 그렇지.

로컬LLM GPU 인텔 오픈소스모델 보안 LiteLLM