AI 업데이트: LiteLLM 공급망 공격, FlashAttention-4, 그리고 중국 오픈소스의 약진

이 글은 AI 검수에서 통과하지 못했습니다 (점수: 55/100)

⚠️ 비어있는 섹션이 있다 🚫 죽은 링크: https://medium.com/ai-advances/flashattention-4-python-gpu-kernel-blackwell-2b18f51c8b32 (403) 🚫 죽은 링크: https://www.reuters.com/business/autos-transportation/chinas-open-source-dominance-threatens-us-ai-lead-us-advisory-body-warns-2026-03-23/ (401)

링크 오류, 품질 미달 등의 사유로 자동 분류된 글입니다.

🤖 1835 in / 5534 out / 7369 total tokens

오늘 자고 일어났더니 LiteLLM이 털렸다. PyPI 패키지가 공격당해서 수천 명이 영향 받았을 수 있다. 당장 버전 확인해라.

🔥 핫 토픽

LiteLLM 1.82.7, 1.82.8 PyPI 공급망 공격 당함

https://www.reddit.com/r/LocalLLaMA/comments/1s2c1w4/litellm_1827_and_1828_on_pypi_are_compromised_do/

이거 진짜 크다. LiteLLM 쓰는 프로젝트 많을 텐데, 공격자가 패키지를 변조해서 배포했다. 서버 돌리는 분들은 당신 instances 점검해라. 공급망 공격은 게임 서버나 AI 서버나 마찬가지다. 의존성 하나가 털리면 전체가 털린다. 나도 예전에 npm 패키지 하나 때문에 로컬 환경 날린 적 있다. 의존성 최소화, lock 파일 고정, 버전 업데이트는 검증 후에.

출처: Reddit r/LocalLLaMA

GPT-5.4 Pro가 수학 난제 풀었다

https://epoch.ai/frontiermath/open-problems/ramsey-hypergraphs

Epoch AI에서 확인했다. Ramsey Hypergraph 문제를 풀었는데, 이건 진짜 어려운 문제다. 모델이 창의적 추론을 한 건지 패턴 매칭으로 우연히 맞춘 건지는 두고 봐야겠지만, 어쨌든 frontier math에서 open problem을 푼 건 이정표다. 게임 개발하면서 수학 많이 쓰는데, 나중에는 증명 검증도 AI가 도와줄 수 있겠다.

출처: Epoch AI via Hacker News

Andrej Karpathy의 자율 AI 에이전트가 2일 만에 700개 실험 수행

https://fortune.com/2026/03/17/andrej-karpathy-loop-autonomous-ai-agents-future/

Karpathy가 만든 Loop가 2일 동안 700개 실험을 돌렸다. 혼자서. 이게 미래다. 연구원 한 명이 1년 걸릴 일을 AI 에이전트가 며칠 만에 하는 거. 게임 개발에도 적용할 수 있다. 밸런싱 시뮬레이션, 레벨 생성 테스트, 버그 재현... 에이전트한테 시키고 나는 커피 마시면 된다. 물론 지금은 연구 단계지만, 곧 실용화될 거다.

출처: Fortune via Reddit r/artificial

🚀 성능 & 최적화

FlashAttention-4: B200에서 1,613 TFLOPs/s 달성

https://medium.com/ai-advances/flashattention-4-python-gpu-kernel-blackwell-2b18f51c8b32

FlashAttention 시리즈가 4까지 왔다. B200에서 BF16 forward로 1,613 TFLOPs/s, Triton 대비 2.7배 빠르다고 한다. 그리고 Python으로 작성됐다. 커널 최적화를 Python으로 한 게 신기하다. CUDA 직접 짜는 거 생각하면 머리가 아픈데, 이제 Python 레벨에서도 이 정도 성능이 나온다. 인ference 서버 구축할 때 참고해야겠다. UE5에서도 GPU 파티클 최적화할 때 비슷한 고민 하는데, 결국 메모리 대역폭과 연산 효율 싸움이다.

출처: Medium AI Advances

GPU 가격이 드디어 내려가나?

https://i.redd.it/gbyt7weh32rg1.jpeg

Reddit에 가격 차트 올라왔는데, 하락세라고 한다. 670점 업보트. 실제로 내려갈지는 두고 봐야겠지만, H100 대기열이 풀리고 중고 시장이 풀리면 가격은 떨어질 거다. 게임 개발자로서는 VRAM 많은 소비자 GPU가 필요한데, 언제 32GB VRAM 카드를 합리적 가격에 살 수 있을까. 지금은 4090 쓰는데 로컬 LLM 돌리기엔 빡빡하다.

출처: Reddit r/LocalLLaMA

🌏 중국 AI 생태계

중국 오픈소스 AI가 미국 리드를 위협한다

https://www.reuters.com/business/autos-transportation/chinas-open-source-dominance-threatens-us-ai-lead-us-advisory-body-warns-2026-03-23/

미국 자문기구가 경고했다. 중국이 오픈소스로 AI 생태계를 장악하고 있다고. 맞는 말이다. Qwen, DeepSeek, Yi, GLM... 중국 모델들이 진짜 좋다. 그리고 오픈이다. 미국은 폐쇄적으로 가고 중국은 오픈으로 가는 아이러니. 게임 엔진도 비슷했다. 언리얼이 오픈소스는 아니지만, 에픽이 개발자 친화적으로 갈 때 다른 엔진들은 폐쇄적이었다. 결국 생태계가 이긴다.

출처: Reuters via Reddit r/LocalLLaMA

중국 LLM 현황 정리

https://www.reddit.com/r/LocalLLaMA/comments/1s1gm9z/the_current_state_of_the_chinese_llms_scene/

Reddit 유저가 정리한 중국 LLM 지도. ByteDance(doubao), Alibaba(Qwen), Baidu, Tencent, 01.AI(Yi), DeepSeek, Moonshot... 이름만 들어도 알겠지만, 경쟁이 치열하다. 각자 특색이 있다. doubao는 API 가격이 싸고, Qwen은 성능이 좋고, DeepSeek은 추론에 강하다. 개발자 입장에서 선택지가 많은 건 좋은 거다. 경쟁 없는 시장은 썩는다.

출처: Reddit r/LocalLLaMA

RYS II: Qwen3.5 27B로 레이어 반복 실험

https://www.reddit.com/r/LocalLLaMA/comments/1s1t5ot/rys_ii_repeated_layers_with_qwen35_27b_and_some/

H100으로 실험 돌린 결과. 레이어를 반복해서 쓰는 기법으로 모델 크기 효율화하는 연구다. 'Universal Language' 힌트도 있다는데, 본문을 봐야겠다. 모델 구조 최적화는 게임 렌더링 파이프라인 최적화랑 비슷하다. 같은 연산을 어떻게 재사용하느냐. 메모리 아끼면서 성능 내는 게 핵심이다.

출처: Reddit r/LocalLLaMA

🎮 게임 & AI

SillyTavern 확장으로 모든 게임에 NPC 살리기

https://v.redd.it/9ju2tp2gezqg1

SillyTavern을 백엔드로 써서 게임 NPC에 AI를 입히는 확장이다. 게임 쪽에 작은 브리지 mod만 있으면 된다. Cydonia로 RP 돌리고 Qwen 3.5 쓴다고. 이거 진짜 괜찮은 접근이다. UE5에서 플러그인으로 비슷한 거 만들 수 있겠다. 서버 사이드에서 LLM 돌리고 클라이언트는 WebSocket으로 통신. 지연 시간만 잡으면 된다. NPC 대화가 고정된 트리가 아니라 진짜 대화가 되는 거. 내 사이드 프로젝트에 바로 써먹을 수 있겠다.

출처: Reddit r/LocalLLaMA

📰 기타

EVA: 음성 에이전트 평가 프레임워크

https://huggingface.co/blog/ServiceNow-AI/eva

ServiceNow와 HuggingFace가 만든 음성 에이전트 평가 프레임워크. 게임 NPC에 음성 입힐 때 참고할 만하다. STT-LLM-TTS 파이프라인 전체를 평가하는 게 쉽지 않은데, 이런 프레임워크가 있으면 도움이 된다. 지연 시간, 자연스러움, 오류 복구 능력 등을 측정할 수 있다.

출처: HuggingFace Blog

AI Hype Index: AI가 전쟁터로

https://www.technologyreview.com/2026/03/25/1134571/the-ai-hype-index-ai-goes-to-war/

MIT Tech Review의 AI 과들 지수. Anthropic과 펜타곤이 Claude 무기화로 다퉜고, OpenAI가 펜타곤과 계약했다. 유저들이 ChatGPT를 떠났다고. 군사 적용은 언제나 논란의 대상이다. 게임 개발자로서도 AI를 어떤 용도로 쓸지 고민하게 된다. 기술 자체는 중립인데, 사용처가 문제다.

출처: MIT Technology Review

오늘의 교훈: LiteLLM 쓰는 분들은 당장 버전 확인하세요. 그리고 중국 모델 계속 눈여겨보세요. 오픈소스 경쟁은 결국 개발자에게 이득이다.

LiteLLM 보안 FlashAttention 중국 AI 자율 에이전트 GPU 가격 Qwen 오픈소스 검수실패