AI 업데이트: 공급망 공격 경고, FlashAttention-4, 그리고 중국 LLM 생태계

이 글은 AI 검수에서 통과하지 못했습니다 (점수: 55/100)

⚠️ 비어있는 섹션이 있다 🚫 죽은 링크: https://www.reuters.com/business/autos-transportation/chinas-open-source-dominance-threatens-us-ai-lead-us-advisory-body-warns-2026-03-23/ (401) 🚫 죽은 링크: https://medium.com/ai-advances/flashattention-4-python-gpu-kernel-blackwell-2b18f51c8b32?sk=59bca93c369143e5f74fb0f86e57e6d0 (403)

링크 오류, 품질 미달 등의 사유로 자동 분류된 글입니다.

🤖 1957 in / 4570 out / 6527 total tokens

오늘은 보안 이슈로 시작한다. AI 개발자라면 무조건 확인해야 한다.

🔥 핫 토픽: 공급망 공격 주의보

LiteLLM, 멀웨어 감염 버전 PyPI에 배포됨

이건 진짜 비상이다. LiteLLM 1.82.7과 1.82.8 버전이 해킹당해서 credential stealer가 포함된 채로 PyPI에 올라갔다. 수천 명이 이미 감염됐을 가능성이 크다. litellm_init.pth 파일이 악성코드였던 것.

우리 같이 사이드프로젝트 하는 사람들은 의존성 업데이트를 무심코 하는데, 이번 건 리마인더가 됐다. requirements.txt 고정하고, sha256 검증하고, 가급적이면 private PyPI 미러 쓰는 습관 들여야겠다. UE5 플러그인도 마찬가지지만, Python 생태계는 공급망 공격에 특히 취약하다.

출처: GitHub Issue

LM Studio도 멀웨어 의심 신고

로컬 LLM 실행 도구로 유명한 LM Studio에서도 멀웨어 의심 신고가 올라왔다. 사용자가 바이러스 스캔을 돌리니 3번이나 걸렸다고. false positive일 수도 있지만, 요즘 분위기라면 한 번쯤 의심해보는 게 맞다.

로컬 모델 돌리는 애들 중에 보안에 신경 쓰는 사람 얼마나 있을까. 나도 포함해서 방심하기 쉽다.

출처: Reddit r/LocalLLaMA

📰 뉴스: 중국 LLM과 미국의 위기감

미국 자문기구: "중국 오픈소스 AI가 미국 리더십 위협"

로이터가 보도했는데, 미국 자문기구에서 중국의 오픈소스 AI 전략이 미국의 AI 패권을 위협한다고 경고했다. Qwen, DeepSeek 같은 모델들이 성능은 비슷한데 가격은 훨씬 싸다.

게임 개발자 입장에서 생각하면, 중국 모델 쓰는 게 비용 절감에 확실히 유리하다. 서버 비용 아끼려면 선택지를 열어두는 게 맞다. 정치적 논의는 별개로, 기술적으로는 선택의 폭이 넓어지는 건 좋은 일.

출처: Reuters

중국 LLM 생태계 정리

Reddit에 중국 LLM 현황을 정리한 글이 올라왔다. ByteDance의 doubao(구 dola-seed), Alibaba의 Qwen 시리즈, DeepSeek 등이 메인 플레이어. 한국 개발자들도 이 생태계 이해해두면 좋다. 특히 DeepSeek-V3는 가성비가 진짜 좋다.

출처: Reddit r/LocalLLaMA

⚡ 성능 & 연구

FlashAttention-4: Triton 대비 2.7배 빠르다

FlashAttention-4가 나왔다. B200에서 1,613 TFLOPs/s, BF16 forward 기준 71% utilization. 핵심은 Python으로 작성됐다는 건데, Triton보다 2.7배 빠르다고 한다.

인퍼런스 최적화에 관심 있는 사람이라면 무조건 읽어봐야 한다. 우리 같은 게임 개발자들은 실시간 AI 기능 넣을 때 이런 low-level 최적화가 서버 비용이랑 직결된다. CUDA 커널 직접 짜는 것보다 Python으로 이 정도 성능이 나온다니, 세상 좋아졌다.

출처: Medium

RYS II: Qwen3.5 27B로 레이어 반복 실험

H100으로 Qwen3.5 27B 모델에 레이어 반복 기법을 적용한 실험 결과다. 'Universal Language' 같은 개념도 언급됐는데, 자세한 건 원문을 봐야 할 듯. 모델 아키텍처 트윅으로 성능 향상을 노리는 연구들인데, 로컬 LLM 최적화에 관심 있으면 팔로우해볼 만하다.

출처: Reddit r/LocalLLaMA

Andrej Karpathy의 자율 AI 연구 에이전트

Karpathy가 만든 자율 AI 연구 에이전트가 2일 만에 700개의 실험을 돌렸다. Loop라는 프로젝트인데, AI가 스스로 가설을 세우고 실험을 설계하고 결과를 분석하는 구조.

게임 개발에 비유하면, QA 자동화가 아니라 밸런싱 팀 전체를 자동화하는 수준이다. 물론 아직은 초기 단계지만, 방향성은 명확하다.

출처: Fortune

🛠️ 도구 & 오픈소스

Claude Code Cheat Sheet

Claude Code 쓰는 사람들을 위한 치트시트. 요즘 코딩 어시스턴트 쓸 때 Claude 쓰는 빈도가 늘었는데, 단축키랑 프롬프트 팁 정리해둔 거다. 북마크해두고 필요할 때마다 보면 된다.

출처: cc.storyfox.cz

GraphBot: LLM 10배 똑똑하게 만들기

재귀적 DAG 분해 + 시간적 지식 그래프를 조합해서 싼 모델을 비싼 모델 수준으로 만드는 프로젝트다. 30개 태스크 통과에 총 비용 0.0006달러. RAG랑 비슷한 맥락인데, 구조화된 지식 그래프를 활용하는 접근.

게임 NPC 지식 베이스 구축할 때 참고해볼 만하다. 단순 RAG보다 구조화된 접근이 필요할 때가 있다.

출처: GitHub

SillyTavern 게임 NPC 확장

SillyTavern을 백엔드로 써서 게임 NPC에 생명을 불어넣는 확장이다. Cydonia랑 Qwen 3.5를 쓴다고. 모드가 게임이랑 SillyTavern 사이를 브릿지해주는 구조라, 거의 모든 게임에 적용 가능하다.

UE5에서 비슷한 거 만들어본 입장에서 말하면, 이런 접근이 의외로 현실적이다. 게임 내에서 LLM 서빙하는 것보다 외부 서버에 맡기는 게 확장성이 좋다.

출처: Reddit r/LocalLLaMA

EVA: 음성 에이전트 평가 프레임워크

HuggingFace에서 음성 AI 에이전트 평가를 위한 새 프레임워크를 공개했다. 음성 인터페이스 게임 만들 때 참고할 만한 벤치마크들일 듯.

출처: HuggingFace Blog

오늘의 교훈: pip install --upgrade는 신중하게. 그리고 중국 모델, 한 번쯤은 써보자. 비용 절감이 장난 아니다.

supply-chain-attack security flashattention chinese-llm ai-agents game-npc litellm 검수실패

← 이전 글

AI 업데이트: LiteLLM 서플라이체인 공격, FlashAttention-4, 그리고 게임 NPC 혁명

다음 글 →

AI 업데이트: 공급망 공격 경고, FlashAttention-4, 그리고 중국 LLM의 약진