AI 업데이트: LiteLLM 공급망 공격과 FlashAttention-4, 그리고 중국 AI

이 글은 AI 검수에서 통과하지 못했습니다 (점수: 55/100)

⚠️ 비어있는 섹션이 있다 🚫 죽은 링크: https://medium.com/ai-advances/flashattention-4-python-gpu-kernel-blackwell-2b18f51c8b32?sk=59bca93c369143e5f74fb0f86e57e6d0 (403) 🚫 죽은 링크: https://www.reuters.com/business/autos-transportation/chinas-open-source-dominance-threatens-us-ai-lead-us-advisory-body-warns-2026-03-23/ (401)

링크 오류, 품질 미달 등의 사유로 자동 분류된 글입니다.

🤖 1957 in / 5373 out / 7330 total tokens

오늘 가장 중요한 소식은 LiteLLM 패키지가 공격당했다는 거다. 수천 명이 영향받았을 수 있으니 LiteLLM 쓰는 사람들은 당장 확인해라.

🔥 공급망 공격 터졌다

LiteLLM 1.82.7, 1.82.8이 뚫렸다

많은 프로젝트에서 LLM API 호출 추상화용으로 쓰던 LiteLLM이 타겟이 됐다. 악성 litellm_init.pth 파일이 credential stealer 역할을 했다고 한다. 내 사이드 프로젝트에서도 LiteLLM 쓴 적 있는데, 등골이 오싹하다. pip install 할 때 버전 꼭 확인하고, requirements.txt에 버전 고정해놓은 사람들은 1.82.6 이전으로 롤백하거나 해당 버전 건너뛰기를 권장한다.

왜 중요한가: LLM 래퍼 라이브러리는 API 키를 다루니까 공격자한테는 황금어장이다. 한 번 뚫리면 수천 프로젝트의 키가 다 털린다.

출처: Reddit r/LocalLLaMA

Simon Willison의 상세 분석

Simon Willison이 이 공격에 대해 자세히 정리했다. 공격자가 어떻게 PyPI 패키지를 변조했는지, .pth 파일이 어떻게 실행 시점에 코드를 주입하는지 설명해놨다. Python 생태계의 구조적 취약점을 보여주는 사례다. 의존성 트리 검증하고, pinning 제대로 하고, CI/CD에서 취약점 스캔 돌리는 거 선택이 아니라 필수다.

출처: Simon Willison

LM Studio도 의심받아

로컬 LLM 실행 툴로 유명한 LM Studio에서 정교한 멀웨어가 감지됐다는 제보가 올라왔다. 아직 확인 중이지만, 여러 번 탐지됐다고 한다. 게임 개발자로서 말하면, 클라이언트 툴이 오염되면 빌드 파이프라인까지 오염될 수 있다. 로컬에서 모델 돌리는 사람들은 당분간 공식 채널 업데이트 확인하고, 의심스러우면 VM이나 샌드박스에서 돌려라.

출처: Reddit r/LocalLLaMA

🚀 성능 최적화

FlashAttention-4: 1,613 TFLOPs/s 달성

FlashAttention-4가 B200에서 BF16 포워드로 1,613 TFLOPs/s를 찍었다. Triton 대비 2.7배 빠르고, 게다가 Python으로 작성됐다고 한다. Blackwell 아키텍처의 잠재력을 보여주는 사례다. 추론 서빙하는 입장에서는 메모리 대역폭 병목을 어디까지 풀 수 있는지가 관건인데, 이 정도 활용률(71%)이면 꽤 인상적이다. UE5에서도 GPU 파티클이나 Compute Shader 최적화할 때 비슷한 고민 하는데, 결국 메모리 계층 구조 얼마나 잘 활용하느냐가 다르다.

왜 중요한가: 추론 비용이 서버 비용의 큰 덩어리다. 어텐션만 2.7배 빨라지면 전체 서빙 아키텍처를 다시 설계해야 할 수도 있다.

출처: Medium

RYS II: 레이어 반복으로 성능 올리기

Qwen3.5 27B로 레이어 반복 실험을 한 결과가 나왔다. H100으로 여러 실험을 돌려서 'Universal Language' 같은 개념도 찾았다고 한다. 모델 구조 자체를 변경하지 않고 레이어를 반복해서 깊이를 늘리는 접근인데, 메모리 효율성과 성능 사이의 트레이드오프를 연구한 듯하다. 게임 엔진에서도 LOD나 인스턴싱으로 비슷한 최적화를 하는데, 신기한 발상이다.

출처: Reddit r/LocalLLaMA

🌏 중국 AI 현황

미국 자문기구 "중국 오픈소스가 위협이다"

미국 자문기구에서 중국의 오픈소스 AI가 미국의 리드를 위협한다고 경고했다. Qwen, DeepSeek 같은 모델들이 성능도 좋고 라이선스도 관대해서 전 세계 개발자들이 쓰고 있으니, 장기적으로는 미국 AI 생태계의 영향력이 줄어들 수 있다는 논리다. 정치적인 내용은 제쳐두고 개발자 관점에서 보면, 경쟁이 치열해질수록 우리한테는 기회다. 더 좋은 모델이 더 싸게 나온다.

출처: Reuters

중국 LLM 생태계 정리

중국 LLM 현황을 정리한 글이 올라왔다. ByteDance의 doubao가 현재 마켓 리더고, Alibaba의 Qwen, DeepSeek 등이 따라가는 구조라고 한다. 각 회사마다 전략이 다른데, ByteDance는 앱 생태계와 결합, Alibaba는 클라우드와 결합 등. 중국 시장은 규제도 다르고 데이터 파이프라인도 달라서 독자적인 생태계가 형성되고 있다.

출처: Reddit r/LocalLLaMA

🛠️ 도구와 오픈소스

GraphBot: LLM 10배 똑똑하게 만들기

재귀적 DAG 분해와 시간 지식 그래프를 결합해서 싼 모델도 비싼 모델 수준으로 만든다는 프로젝트다. 30개 태스크 통과에 총비용 0.0006달러라고 한다. 게임 NPC AI 같은 데서 지식 그래프 쓰는 거랑 비슷한 맥락인데, LLM 추론을 그래프 구조로 분해해서 처리하는 방식이 흥미롭다. 에이전트 아키텍처 설계할 때 참고할 만하다.

출처: GitHub

Claude Code Cheat Sheet

Claude Code 쓸 때 유용한 치트시트가 나왔다. 요즘 코딩 어시스턴트 쓰는 게 당연한 시대인데, 프롬프트 패턴이나 워크플로우 최적화 팁이 정리되어 있다. UE5 C++ 할 때도 Claude Code 꽤 쓸만하다. 특히 리팩토링이나 보일러플레이트 작성할 때.

출처: cc.storyfox.cz

SillyTavern으로 게임 NPC 살리기

SillyTavern 확장으로 게임 NPC에 AI를 입히는 프로젝트다. SillyTavern을 백엔드로 쓰고, 게임 모드가 브릿지 역할을 해서 거의 모든 게임에 적용할 수 있다고 한다. Cydonia를 RP 모델로, Qwen 3.5를 백엔드로 썼다고. 게임 개발자로서 이런 접근이 반갑다. NPC 대화 시스템을 직접 짜는 것보다 훨씬 수월할 수 있다.

출처: Reddit r/LocalLLaMA

🔬 연구와 실험

Karpathy의 자율 AI 연구 에이전트

Andrej Karpathy가 만든 자율 AI 연구 에이전트가 이틀 만에 700개 실험을 돌렸다고 한다. AI가 AI를 연구하는 시대가 오고 있다는 걸 보여주는 사례. 게임 개발에서도 프로시저럴 콘텐츠 생성이나 밸런싱 자동화에 비슷한 접근을 쓸 수 있을 것 같다. 인간 연구자가 하기 힘든 대규모 파라미터 스윕을 AI가 대신 하는 거다.

출처: Fortune

EVA: 음성 에이전트 평가 프레임워크

HuggingFace에서 음성 에이전트 평가용 프레임워크 EVA를 공개했다. 음성 인식만큼이나 응답 생성, 톤, 인터럽션 처리 등 종합적인 평가가 필요한데, 이걸 체계화한 것 같다. 게임 보이스 챗봇이나 인게임 음성 비서 만들 때 유용할 듯.

출처: HuggingFace Blog

공급망 보안이 갈수록 중요해진다. 오늘 LiteLLM 쓴 사람들 다 털린 거나 마찬가진데, 내일은 어떤 패키지가 털릴지 모른다. 의존성 최소화하고, 하는 수 없이 쓰는 건 버전 pinning하고 정기적으로 audit 해라.

LiteLLM SupplyChain FlashAttention-4 ChineseAI Security 검수실패