AI 업데이트: LiteLLM 서플라이체인 공격, FlashAttention-4, 그리고 게임 NPC 혁명

이 글은 AI 검수에서 통과하지 못했습니다 (점수: 55/100)

⚠️ 비어있는 섹션이 있다 🚫 죽은 링크: https://www.reuters.com/business/autos-transportation/chinas-open-source-dominance-threatens-us-ai-lead-us-advisory-body-warns-2026-03-23/ (401) 🚫 죽은 링크: https://medium.com/ai-advances/flashattention-4-python-gpu-kernel-blackwell-2b18f51c8b32 (403)

링크 오류, 품질 미달 등의 사유로 자동 분류된 글입니다.

🤖 1957 in / 5102 out / 7059 total tokens

오늘 가장 중요한 건 LiteLLM 패키가 뚫렸다는 거다. 로컬 LLM 쓰는 사람치고 litellm 안 써본 사람 없을 텐데, 버전 1.82.7, 1.82.8에 credential stealer가 포함됐다. 당장 업데이트 멈추고, 이미 했으면 크리덴셜 교체해라.

🔥 핫 토픽

LiteLLM Python 패키지 서플라이체인 공격

https://github.com/BerriAI/litellm/issues/24512

Hacker News와 Reddit 여러 곳에서 동시에 터진 이슈다. LiteLLM 1.82.7과 1.82.8 버전에 악성 litellm_init.pth 파일이 포함됐는데, 이게 크리덴셜을 탈취한다. 서플라이체인 공격은 npm에서만 일어나는 줄 알았는데 PyPI도 안전하진 않더라. 의존성 관리할 때 버전 고정(lock file) 진짜 중요하다. 게임 서버나 AI 파이프라인에서 자동 업데이트 돌려놓은 분들... 수거하시길.

출처: GitHub Issue

LM Studio도 악성코드 의심

https://i.redd.it/kmwwgv6bmzqg1.jpeg

이건 아직 확인 필요하다. 한 사용자가 LM Studio에서 정교한 멀웨어 감염 신호를 포착했다고 주장했는데, false positive일 수도 있다. 그래도 요즘 분위기 보면 로컬 LLM 툴들도 타겟이 되는 것 같아서 신경 쓰인다. 다운로드는 공식 사이트에서만 하자.

출처: Reddit r/LocalLLaMA

📰 뉴스

중국 오픈소스 AI, 미국 리드 위협한다는 미국 자문기구 경고

https://www.reuters.com/business/autos-transportation/chinas-open-source-dominance-threatens-us-ai-lead-us-advisory-body-warns-2026-03-23/

미국 의회 자문기구가 중국의 오픈소스 AI 전략이 미국의 AI 패권을 위협한다고 경고했다. 중국이 알리바바, 텐센트, 바이트댄스 중심으로 오픈소스 모델을 쏟아내면서 생태계를 장악해간다는 분석이다. 솔직히 Qwen 시리즈 써보면 말이 안 될 정도로 성능이 좋다. 폐쇄적인 미국 빅테크보다 오픈소스 생태계가 장기적으로 이길 수도 있다는 게 이제 진지한 논의가 됐다.

출처: Reuters

중국 LLM 현황 정리

https://www.reddit.com/r/LocalLLaMA/comments/1s1gm9z/the_current_state_of_the_chinese_llms_scene/

Reddit 유저가 중국 LLM 생태계를 깔끔하게 정리했다. 바이트댄스의 dola-seed(aka doubao)가 현재 마켓 리더고, 그 뒤를 알리바바의 Qwen 시리즈가 따르는 중. 중국은 정부 지원까지 받으면서 오픈소스를 전략적으로 밀어주고 있다. 한국은... 음.

출처: Reddit r/LocalLLaMA

Andrej Karpathy의 자율 AI 연구 에이전트, 2일 만에 700개 실험 수행

https://fortune.com/2026/03/17/andrej-karpathy-loop-autonomous-ai-agents-future/

Karpathy가 만든 Loop라는 자율 AI 연구 에이전트가 2일 동안 700개의 실험을 돌렸다. 연구자 한 명이 몇 주 걸릴 일을 이틀 만에. 게임 개발로 치면 AI가 알아서 밸런싱 테스트 돌리고 최적값 찾아주는 수준이다. 물론 아직은 연구 단계지만, 곧 게임 프로덕션 파이프라인에도 이런 에이전트가 들어올 거다.

출처: Fortune

🛠️ 개발 도구

Claude Code Cheat Sheet

https://cc.storyfox.cz

Claude Code 쓰는 사람들에게 유용한 치트시트. 단축키, 명령어, 워크플로우 팁이 깔끔하게 정리돼 있다. 나도 Claude Code로 사이드프로젝트 할 때 자주 쓰는데, 이거 보고 몇 가지 새로운 기능 발견했다. 북마크해둘 만하다.

출처: Storyfox

GraphBot - LLM 10배 똑똑하게 만들기

https://github.com/LucasDuys/graphbot

Recursive DAG decomposition + temporal knowledge graph 조합으로 싼 모델도 비싼 모델 성능을 내게 만드는 프로젝트다. 30개 태스크 모두 통과에 총비용 0.0006달러. RAG 진화형인 셈인데, 게임 NPC 대화 시스템에 적용하면 꽤 쓸만할 것 같다. 지식 그래프 기반이라 일관성 있는 응답이 가능하다.

출처: GitHub

EVA - 음성 에이전트 평가 프레임워크

https://huggingface.co/blog/ServiceNow-AI/eva

HuggingFace와 ServiceNow가 만든 음성 AI 에이전트 평가 프레임워크. 게임 보이스 챗봇이나 인게임 음성 비서 만들 때 벤치마크로 쓸 수 있겠다. 지표들이 꽤 체계적이다.

출처: HuggingFace Blog

⚡ 성능 최적화

FlashAttention-4: Triton보다 2.7배 빠르다

https://medium.com/ai-advances/flashattention-4-python-gpu-kernel-blackwell-2b18f51c8b32

FlashAttention-4가 나왔다. B200에서 BF16 forward 1,613 TFLOPs/s 달성. Triton 구현보다 2.7배 빠르고, Python으로 작성됐다. Blackwell 아키텍처 최적화가 핵심인데, 인퍼런스 서버 돌리는 사람들에겐 큰 소식이다. 게임 서버에 실시간 LLM 붙일 때 메모리 대역폭이 병목인데, 이거 쓰면 처리량 확 올라가겠다.

출처: Medium

RYS II - Qwen3.5 27B로 반복 레이어 실험

https://www.reddit.com/r/LocalLLaMA/comments/1s1t5ot/rys_ii_repeated_layers_with_qwen35_27b_and_some/

H100으로 Qwen3.5 27B 모델에 반복 레이어 실험을 돌린 결과다. 'Universal Language'에 대한 힌트도 있다는데, 내용이 꽤 길다. 모델 아키텍처 트윅으로 성능 올리는 연구들인데, 로컬 LLM 최적화에 관심 있으면 읽어볼 만하다.

출처: Reddit r/LocalLLaMA

🎮 게임 개발

SillyTavern 확장으로 게임에 NPC 구현

https://v.redd.it/9ju2tp2gezqg1

이거 진짜 재밌다. SillyTavern을 백엔드로 써서 어떤 게임이든 NPC를 살아있게 만드는 확장이다. 게임과 SillyTavern 사이에 작은 모드만 연결하면 된다. 현재 Cydonia를 RP 모델로, Qwen 3.5를 백엔드로 쓰고 있다고. UE5나 유니티 게임에 붙일 수 있겠는데, 서버 아키텍처 고민 좀 해봐야겠다. 클라이언트-모드-서버 구조로 하면 멀티플레이에서도 쓸 수 있을 듯.

출처: Reddit r/LocalLLaMA

오늘 교훈: pip install 할 때 버전 확인하고, 의심스러우면 업데이트 보류하자. 크리덴셜 탈취당해서 AI API 비용 폭발하면 진짜 피곤하다.

LiteLLM 쓰는 사람들, 1.82.7/8 쓰고 있으면 당장 내려라. 그리고 API 키 교체하자.

LiteLLM 보안 FlashAttention-4 중국 LLM 게임 NPC Claude Code 서플라이체인 공격 검수실패

← 이전 글

AI 업데이트: LiteLLM 서플라이체인 공격, FlashAttention-4, 중국 LLM 현황

다음 글 →

AI 업데이트: 공급망 공격 경고, FlashAttention-4, 그리고 중국 LLM 생태계