AI 업데이트: 공급망 공격 경고, FlashAttention-4, 그리고 중국 AI의 약진

이 글은 AI 검수에서 통과하지 못했습니다 (점수: 55/100)

⚠️ 비어있는 섹션이 있다 🚫 죽은 링크: https://www.reuters.com/business/autos-transportation/chinas-open-source-dominance-threatens-us-ai-lead-us-advisory-body-warns-2026-03-23/ (401) 🚫 죽은 링크: https://medium.com/ai-advances/flashattention-4-python-gpu-kernel-blackwell-2b18f51c8b32?sk=59bca93c369143e5f74fb0f86e57e6d0 (403)

링크 오류, 품질 미달 등의 사유로 자동 분류된 글입니다.

🤖 2093 in / 4833 out / 6926 total tokens

오늘 AI 생태계에 큰일 났다. LiteLLM이 공급망 공격을 당했다.

🔥 핫 토픽: 공급망 공격 주의보

LiteLLM 1.82.7~8, 악성코드 감염 확인

많은 프로젝트에서 LLM API 호출 추상화 레이어로 쓰는 LiteLLM이 뚫렸다. 1.82.7과 1.82.8 버전에 credential stealer가 포함돼 있었다. PyPI에서 이미 내려갔지만, 이미 설치한 사람들은 비밀번호나 API 키가 탈취됐을 가능성이 있다.

왜 중요한가: 게임 서버 만들 때도 의존성 하나 털리면 전체가 날아간다. AI 래퍼 프로젝트들도 마찬가지. requirements.txt에 있는 패키지 하나가 골치를 썩인다. 의존성 업데이트할 때는 항상 pinning 하고 checksum 검증하자.

출처: GitHub Issue | Simon Willison 분석

LM Studio도 멀웨어 의심 보고

로컬 LLM 실행 도구로 인기 많은 LM Studio에서도 의심스러운 파일이 발견됐다는 제보가 올라왔다. 아직 확인 단계지만, 여러 사용자가 동일한 패턴을 보고했다.

왜 중요한가: 로컬에서 모델 돌리는 게 트렌드인데, 실행파일 배포 방식이라 한 번 털리면 시스템 전체가 위험하다. portable 버전 쓰든 샌드박스에서 돌리든 조심하자.

출처: Reddit r/LocalLLaMA

📰 뉴스

미국 자문기구: "중국 오픈소스 AI가 미국 리드를 위협한다"

미국 의회 자문기구가 중국의 오픈소스 LLM 전략을 경고했다. Qwen, DeepSeek 같은 모델들이 전 세계 개발자들을 끌어모으고 있고, 이게 장기적으로는 표준 쟁탈전에서 중국에게 유리하게 작용할 거란 분석이다.

왜 중요한가: 게임 엔진 시장 생각해보면 된다. 언리얼이 오픈소스였다고 치면, 전 세계 인재들이 에픽 생태계로 몰렸을 거다. 중국은 지금 그 짓을 하고 있다. 미국이 챗GPT로 선도했지만, 오픈소스 생태계는 중국이 앞서가는 모양새다.

출처: Reuters

중국 LLM 현황 정리

Reddit에 중국 LLM 생태계를 정리한 글이 올라왔다. ByteDance의 doubao이 시장 점유율 1위, Alibaba의 Qwen 시리즈가 오픈소스 쪽은 여전히 강세. DeepSeek은 가성비로 치고 올어오는 중이다.

왜 중요한가: 한국 개발자 입장에서는 중국 모델 쓰기가 껄끄럽긴 하지만, 기술적으로는 무시할 수 없다. 특히 Qwen은 성능이 진짜 좋다. 프로젝트 성격에 따라 고려해볼 만하다.

출처: Reddit r/LocalLLaMA

Karpathy의 자율 AI 에이전트, 2일 만에 700개 실험

Andrej Karpathy가 만든 자율 AI 연구 에이전트가 2일 동안 700개 실험을 돌렸다. 인간 연구자가 몇 달 걸릴 일을 며칠 만에 처리한 셈이다.

왜 중요한가: 게임 개발로 치면 자동화 테스트 봇이 스스로 테스트 케이스를 만들고 돌리는 수준이다. AI가 AI를 연구하는 시대가 오고 있다. 우리도 반복적인 작업은 에이전트에 맡기는 방향으로 가야 한다.

출처: Fortune

📄 연구 & 기술

FlashAttention-4: Python으로 작성됐는데 2.7배 빠르다

FlashAttention-4가 나왔다. 놀라운 건 Triton 대비 2.7배 빠른데 Python으로 작성됐다는 거다. B200에서 1,613 TFLOPs/s 달성. CUDA 커널 짜던 시대가 바뀌고 있다.

왜 중요한가: 게임 개발자도 셰이더 최적화하려고 어셈블리 가까운 언어 쓰던 게 Python만으로도 가능해진다. 물론 내부적으로는 뭔가 하겠지만, 추상화 레벨이 올라간 건 확실하다. 인퍼런스 서버 최적화할 때 참고하자.

출처: Medium

RYS II: Qwen3.5 27B로 repeated layers 실험

H100을 굴려서 Qwen3.5 27B로 레이어 반복 실험을 했다. "Universal Language" 같은 개념도 등장하는데, 모델 구조 자체를 건드는 실험이다.

왜 중요한가: 모델 구조 최적화는 게임 엔진 최적화랑 비슷하다. 메모리 아끼면서 성능 올리는 실험들이다. 로컬 LLM 돌릴 때 VRAM이 항상 부족한 우리에게 반가운 연구다.

출처: Reddit r/LocalLLaMA

⭐ 오픈소스 & 도구

Claude Code Cheat Sheet

Claude Code 쓰는 법을 정리한 치트시트다. 단축키, 프롬프트 팁, 활용법이 깔끔하게 정리돼 있다.

왜 중요한가: 코파일럿 대용으로 Claude Code 쓰는 개발자가 늘고 있다. 특히 C++ 프로젝트에서도 꽤 쓸만하다. 북마크 해두고 필요할 때마다 보자.

출처: cc.storyfox.cz

graphbot: LLM 10배 똑똑하게 만들기

재귀적 DAG 분해 + 시간 기반 지식그래프를 조합해서 싼 모델도 비싼 모델 수준으로 만든다는 프로젝트다. 30개 태스크 모두 통과했는데 총 비용이 0.0006달러라니.

왜 중요한가: RAG랑 비슷하지만 구조가 다르다. 게임 NPC 지식 베이스 구축할 때 참고할 만한 아키텍처다. 복잡한 퀘스트 로직도 이런 식으로 풀 수 있을 거다.

출처: GitHub - LucasDuys/graphbot

SillyTavern 게임 NPC 확장

SillyTavern을 백엔드로 써서 어떤 게임이든 NPC에 생명을 불어넣는 확장이다. 게임 클라이언트와 SillyTavern 사이에 브리지 모드만 하나 깔면 된다. Cydonia랑 Qwen 3.5를 쓴다고.

왜 중요한가: UE5에서 비슷한 거 만들어봤는데, 로컬 LLM 서버 따로 두고 HTTP로 통신하는 구조가 제일 깔끄하더라. 이 프로젝트 구조 참고해서 모듈화하면 좋겠다.

출처: Reddit r/LocalLLaMA

EVA: 음성 에이전트 평가 프레임워크

HuggingFace에서 음성 AI 에이전트 평가용 프레임워크를 공개했다. TTS, STT, 대화 능력까지 종합적으로 평가한다.

왜 중요한가: 게임 NPC에 음성까지 넣으려면 이런 게 필요하다. 단순히 텍스트만 잘하는 게 아니라 말하기, 듣기, 대화 맥락 파악까지 평가해야 한다.

출처: HuggingFace Blog

오늘 교훈: 의존성 업데이트는 항상 조심하자. 그리고 중국 모델이 무섭게 치고 올라오는 건 확실하다.

공급망 보안은 선택이 아니라 생존 문제다. 오늘 LiteLLM 쓴 프로젝트 있으면 당장 비밀번호 바꿔라.

security supply-chain-attack LiteLLM FlashAttention China-AI open-source-LLM tools 검수실패