AI 업데이트: LiteLLM 공급망 공격, FlashAttention-4, 중국 LLM 현황

이 글은 AI 검수에서 통과하지 못했습니다 (점수: 55/100)

⚠️ 비어있는 섹션이 있다 🚫 죽은 링크: https://www.reuters.com/business/autos-transportation/chinas-open-source-dominance-threatens-us-ai-lead-us-advisory-body-warns-2026-03-23/ (401) 🚫 죽은 링크: https://medium.com/ai-advances/flashattention-4-python-gpu-kernel-blackwell-2b18f51c8b32 (403)

링크 오류, 품질 미달 등의 사유로 자동 분류된 글입니다.

🤖 2093 in / 5917 out / 8010 total tokens

오늘 가장 중요한 소식은 LiteLLM 패키지가 공급망 공격을 당했다는 거다. AI 개발자라면 거의 다 쓰는 라이브러리니까, 지금 바로 버전 확인해라.

🔥 핫 토픽

LiteLLM 1.82.7~8, 공급망 공격당함

https://github.com/BerriAI/litellm/issues/24512

진짜 크다. LiteLLM은 OpenAI, Claude, Gemini 등 다양한 LLM API를 통합해서 쓸 수 있게 해주는 라이브러리다. 거의 모든 AI 래퍼 프로젝트에서 의존성으로 들어가 있을 정도다.

근데 1.82.7과 1.82.8 버전에 악성코드가 심어졌다. litellm_init.pth 파일이 credential stealer(자격증명 탈취기)였던 것. PyPI에서 다운받은 사람들 중에 환경변수에 API 키 넣어둔 게 있다면... 이미 뺏겼을 수도 있다.

Simon Willison이 정리한 걸 보면, 공격자가 패키지 빌드 프로세스를 장악해서 악성 pth 파일을 주입한 것으로 보인다. supply-chain attack의 전형적인 예다.

왜 중요한가: 네가 만든 AI 서비스가 LiteLLM 쓰고 있으면 1) 버전 확인 2) API 키 로테이션 3) 로그 검토. 이건 게임 서버로 치면 핵클라이언트가 인증 서버에 백도어 심어놓은 수준이다.

출처: GitHub Issue | Simon Willison

LM Studio도 악성코드 의심 받아

https://i.redd.it/kmwwgv6bmzqg1.jpeg

로컬 LLM 돌릴 때 자주 쓰는 LM Studio 사용자가 의심스러운 파일 탐지 결과를 공유했다. 3번이나 같은 탐지가 떴다고 한다.

아직 확실하진 않다. False positive일 수도 있고. 근데 LiteLLM 이슈랑 타이밍이 겹치는 걸 보면... 요즘 AI 툴 생태계가 공격받고 있는 건 확실해 보인다.

왜 중요한가: 로컬에서 모델 돌리는 건 클라우드 API 키 노출 걱정 없어서 안전하다고 생각했는데, 이조차도 위험해질 수 있다는 신호다.

출처: Reddit r/LocalLLaMA

📰 뉴스

미국 자문기구: 중국 오픈소스 AI가 미국 리드 위협한다

https://www.reuters.com/business/autos-transportation/chinas-open-source-dominance-threatens-us-ai-lead-us-advisory-body-warns-2026-03-23/

미국 의회 자문기구가 경고했는데, 중국이 오픈소스 LLM으로 글로벌 생태계를 장악하고 있다는 거다. Qwen, DeepSeek, Yi 같은 모델들이 성능은 좋고 라이선스는 관대하니까 전 세계 개발자들이 다 쓰게 되고, 그러면 중국이 AI 표준을 주도하게 된다는 논리.

왜 중요한가: 게임 엔진으로 치면 Unreal이나 Unity 대신 중산층 국가에서 만든 무료 엔진이 시장을 잠식하는 느낌? 근데 실제로 Qwen 2.5나 DeepSeek V3 성능 보면, 미국 폐쇄형 모델이랑 경쟁할 수 있는 수준이다. 정치적 논란 떠나서 기술적 팩트는 인정해야 한다.

출처: Reuters

중국 LLM 현황 정리

https://www.reddit.com/r/LocalLLaMA/comments/1s1gm9z/the_current_state_of_the_chinese_llms_scene/

한 reddit 유저가 중국 LLM 생태계를 정리했다.

주요 플레이어:

ByteDance (Doubao/Seed)
Alibaba (Qwen 시리즈)
DeepSeek
01.AI (Yi)
Baidu, Tencent 등

재밌는 건 중국은 "모델을 서비스로 파는" 게 아니라, 모델 자체를 오픈소스로 풀어서 생태계를 만드는 전략을 쓴다는 거다. API 비용도 미국보다 훨씬 싸고.

출처: Reddit r/LocalLLaMA

Karpathy의 자율 AI 연구 에이전트, 2일 만에 700개 실험

https://fortune.com/2026/03/17/andrej-karpathy-loop-autonomous-ai-agents-future/

Andrej Karpathy가 만든 자율 AI 연구 에이전트가 2일 동안 700개의 실험을 돌렸다. 사람이 했으면 몇 주 걸렸을 작업을 48시간 만에 처리한 셈.

"Loop"라고 부르는 이 시스템은 연구 아이디어를 내고, 실험을 설계하고, 결과를 분석하고, 다음 실험을 계획하는 사이클을 무한히 반복한다.

왜 중요한가: 게임 개발로 치면 자동 밸런싱 툴이나 AI 테스터 같은 건데, 연구 자체를 자동화하는 수준으로 왔다. NPC가 스스로 퀘스트 만들고 깨는 수준이다.

출처: Fortune

⚡ 성능 & 기술

FlashAttention-4: Python으로 작성, Triton 대비 2.7배 빠름

https://medium.com/ai-advances/flashattention-4-python-gpu-kernel-blackwell-2b18f51c8b32

FlashAttention-4가 나왔다. B200에서 BF16 forward로 1,613 TFLOPs/s 달성. 71% 활용률이다.

근데 진짜 충격적인 건 Python으로 작성됐다는 거다. Triton 기반으로 작성돼서 CUDA 직접 짤 필요 없이 Python만으로 최적화된 커널을 짤 수 있게 됐다. 기존 Triton 구현 대비 2.7배 빠르다고.

왜 중요한가: UE5에서 C++로 최적화하던 걸 Blueprint로도 비슷한 성능 낼 수 있게 된 느낌? AI 인퍼런스 최적화의 진입장벽이 확 낮아졌다. 게임 개발자 입장에서는 커스텀 셰이더를 블루프린트로 짜는 수준으로 쉬워진 거다.

출처: Medium

RYS II: Qwen 3.5 27B로 레이어 반복 실험

https://www.reddit.com/r/LocalLLaMA/comments/1s1t5ot/rys_ii_repeated_layers_with_qwen35_27b_and_some/

H100을 굴려가면서 Qwen 3.5 27B로 "Repeated Layers" 실험을 했다. 모델의 레이어를 반복해서 깊게 만들면 어떻게 되는지 테스트한 것.

"Universal Language"에 대한 힌트도 얻었다고 하는데, 아직 자세한 내용은 글이 너무 길어서... 요약하자면 레이어 구조를 이렇게 저렇게 조작하면 특정 태스크에서 성능 향상이 있다는 얘기다.

출처: Reddit r/LocalLLaMA

🛠️ 도구 & 오픈소스

Claude Code Cheat Sheet

https://cc.storyfox.cz

Claude Code 쓸 때 유용한 치트시트다. 단축키, 프롬프트 패턴, 활용법이 정리돼 있다.

요즘 Claude Code로 코딩하는 사람 많아졌는데, 이거 보면 생산성 더 올라갈 거다. VS Code 단축키 외우던 시절 생각나네.

출처: Storyfox

GraphBot: DAG 분해로 LLM 10배 똑똑하게

https://github.com/LucasDuys/graphbot

Recursive DAG decomposition + temporal knowledge graph 조합으로 싼 모델이 비싼 모델 성능을 내게 만드는 프로젝트다.

30개 태스크 통과하는데 총 $0.0006 비용이 들었다고. 프롬프트 엔지니어링이 아니라, 문제를 DAG로 쪼개서 처리하는 아키텍처 레벨 최적화다.

왜 중요한가: 게임 서버 아키텍처처럼, LLM도 어떻게 구조화해서 호출하느냐에 따라 성능과 비용이 달라진다. 모델 자체를 바꾸는 게 아니라 호출 패턴을 바꾸는 접근.

출처: GitHub

SillyTavern 확장: 게임 속 NPC 살아움직이기

https://v.redd.it/9ju2tp2gezqg1

SillyTavern을 백엔드로 써서 어떤 게임이든 NPC가 살아움직이게 만드는 확장이다. 게임쪽에는 작은 모드만 bridge로 넣으면 된다.

Cydonia를 RP 모델로 쓰고 Qwen 3.5를 백엔드로 돌린다고. 게임 개발자로서 진짜 흥미로운 접근이다. UE5에서 플러그인 형태로 LLM 백엔드 붙이는 거랑 비슷한 패턴.

출처: Reddit r/LocalLLaMA

📄 연구

EVA: 음성 에이전트 평가 프레임워크

https://huggingface.co/blog/ServiceNow-AI/eva

HuggingFace와 ServiceNow가 음성 AI 에이전트 평가를 위한 EVA 프레임워크를 발표했다.

음성 에이전트는 텍스트보다 평가가 어렵다. 지연시간, 발화 품질, 인터럽트 처리 등등. 이걸 체계적으로 평가할 수 있는 프레임워크가 나온 건 좋은 일이다.

출처: HuggingFace Blog

32MB VRAM에서 Claude Opus 이기는 모델 있냐는 밈성 글도 있었는데... GeForce 256이랑 Pentium 3 쓴다고 ㅋㅋ 32MB는 VRAM이 아니라 L2 캐시보다 작은 수준이다. 어쨌든 로컬 LLM에 대한 관심이 여전히 뜨겁다는 방증.

오늘의 교훈: LiteLLM 쓰고 있으면 당장 버전 체크하고 API 키 돌려라. 공급망 공격은 게임 클라이언트 해킹보다 무섭다.

LiteLLM supply-chain-attack FlashAttention-4 Chinese LLM Claude Code AI Security Local LLM 검수실패