hallucination

AI 업데이트: FlashAttention-4, LiteLLM 공급망 공격, 그리고 중국 오픈소스의 약진

R
이더
2026. 03. 25. PM 08:17 · 11 min read · 0

이 글은 AI 검수에서 통과하지 못했습니다 (점수: 55/100)

⚠️ 비어있는 섹션이 있다 🚫 죽은 링크: https://medium.com/ai-advances/flashattention-4-python-gpu-kernel-blackwell-2b18f51c8b32 (403) 🚫 죽은 링크: https://www.reuters.com/business/autos-transportation/chinas-open-source-dominance-threatens-us-ai-lead-us-advisory-body-warns-2026-03-23/ (401)

링크 오류, 품질 미달 등의 사유로 자동 분류된 글입니다.


🤖 1835 in / 4935 out / 6770 total tokens

오늘 자료를 보다가 LiteLLM 공급망 공격 뉴스를 보고 등골이 서늘해졌다. 게임 서버 만들 때 서드파티 패키지 무작정 믿고 쓰던 버릇, 이젠 진짜 고쳐야지.

🔥 핫 토픽

FlashAttention-4: Triton 대비 2.7배 빠르고 순수 Python 구현

https://medium.com/ai-advances/flashattention-4-python-gpu-kernel-blackwell-2b18f51c8b32

Blackwell B200에서 BF16 forward로 1,613 TFLOPs/s 달성. 71% utilization이라니 GPU 효율만 봐도 미쳤다. 핵심은 Python으로 작성됐다는 건데, 커널 최적화가 이제 CUDA C++ 짜지 않아도 된다는 뜻이다. 인퍼런스 서버 구축할 때 Triton 쓰던 나로선 반가운 소식. 게임 NPC AI 실시간 인퍼런스 생각하면 메모리 대역폭 병목이 항상 문제였는데, 이런 최적화가 쌓이면 로컬 LLM도 게임 안에서 돌릴 수 있겠다.

출처: Medium - AI Advances

LiteLLM 1.82.7, 1.82.8 PyPI 패키지 공급망 공격 당함

https://www.reddit.com/r/LocalLLaMA/comments/1s2c1w4/litellm_1827_and_1828_on_pypi_are_compromised_do/

thousands of peoples likely affected라는데, 나도 식은땀 난다. LiteLLM은 LLM API 추상화 레이어로 거의 표준처럼 쓰이는 패키지다. pip install 할 때마다 해시 검증하라는 건 진짜 중요하고, 의존성 lock 파일 꼭 관리해야 한다. UE5 플러그인도 마찬가지지만, Python 생태계는 특히 노출되기 쉽다. 게임 개발팀에서 AI 백엔드 연동할 때 이런 거 신경 안 쓰다가 털리는 거다.

출처: Reddit r/LocalLLaMA

GPT-5.4 Pro, Frontier Math 공개 문제 해결

https://epoch.ai/frontiermath/open-problems/ramsey-hypergraphs

Ramsey Hypergraphs 문제를 풀었다는 건데, 수학 연구자들이 몇 년 걸릴 문제를 모델이 해결한 셈이다. 게임 개발이랑 무관해 보이지만, procedural generation이나 알고리즘 최적화에도 결국 수학적 추론이 들어간다. AI가 이런 영역까지 넘어오는 속도가 무섭다.

출처: Epoch AI

📰 뉴스

중국 오픈소스 AI, 미국 리드 위협한다 - 미 자문기구 경고

https://www.reuters.com/business/autos-transportation/chinas-open-source-dominance-threatens-us-ai-lead-us-advisory-body-warns-2026-03-23/

미국 자문기구가 정식으로 경고한 것이다. 중국이 Qwen, DeepSeek 같은 모델을 오픈소스로 풀면서 전 세계 개발자들이 중국 모델로 빌드하게 만들고 있다는 우려. 게임 개발자 입장에서도 할 말이 많다. 실제로 로컬 LLM 실험할 때 Qwen 쓰는 경우가 많으니까. 오픈소스 생태계에서의 소프트파워가 진짜다.

출처: Reuters

중국 LLM 현황 정리

https://www.reddit.com/r/LocalLLaMA/comments/1s1gm9z/the_current_state_of_the_chinese_llms_scene/

ByteDance의 doubao, Alibaba의 Qwen 시리즈, DeepSeek 등을 정리한 글. 중국은 빅테크들이 경쟁적으로 모델을 쏟아내고 있다. 특히 ByteDance는 추천 알고리즘에서 쌓은 인프라로 LLM까지 확장한 케이스. 게임 회사에서 AI 팀 운영할 때 참고할 만한 생태계 구조다.

출처: Reddit r/LocalLLaMA

GPU 가격 하락?

https://i.redd.it/gbyt7weh32rg1.jpeg

커뮤니티에서 GPU 가격이 내려간다는 신호들 포착. H100 대여 비용이나 중고 시장 변화. 개인 프로젝트로 AI 실험하는 입장에서는 반가운 흐름. 단, 언제나 그렇듯 단기 변동성은 크니 관심있게 지켜봐야 한다.

출처: Reddit r/LocalLLaMA

⭐ 오픈소스 & 프로젝트

SillyTavern 확장: 게임 NPC를 살아있게 만들기

https://v.redd.it/9ju2tp2gezqg1

SillyTavern을 백엔드로 써서 게임 NPC에 AI를 입히는 확장. 브리지 모드만 게임에 심으면 되니까 게임 엔진 종속성이 거의 없다. Cydonia를 RP 모델로 쓰고 Qwen 3.5도 지원. UE5에서 다이얼로그 시스템 만들 때 이런 패턴 참고할 만하다. 게임 클라는 가볍게 두고, AI 처리는 외부 서버로 빼는 구조.

출처: Reddit r/LocalLLaMA

RYS II: Qwen3.5 27B로 반복 레이어 실험

https://www.reddit.com/r/LocalLLaMA/comments/1s1t5ot/rys_ii_repeated_layers_with_qwen35_27b_and_some/

H100으로 돌려서 얻은 실험 결과와 새 모델들. 반복 레이어 구조로 모델을 변형하는 실험인데, 'Universal Language' 개념에 대한 힌트도 있다고. 아키텍처 수정이 성능에 미치는 영향을 보는 건 모델 최적화할 때 도움된다.

출처: Reddit r/LocalLLaMA

Andrej Karpathy의 자율 AI 연구 에이전트: 2일간 700개 실험

https://fortune.com/2026/03/17/andrej-karpathy-loop-autonomous-ai-agents-future/

Karpathy가 만든 Loop 에이전트가 이틀 동안 700개의 실험을 자율적으로 수행. 연구자가 실험 설계하고 돌리고 분석하는 루프를 AI가 대체하는 모습. 게임 개발에서도 반복적인 테스트, 밸런싱 실험을 이런 식으로 자동화할 수 있겠다. 물론 아직은 초기 단계지만 방향성은 명확하다.

출처: Fortune

📄 논문 & 프레임워크

EVA: 음성 에이전트 평가 프레임워크

https://huggingface.co/blog/ServiceNow-AI/eva

HuggingFace와 ServiceNow가 만든 음성 AI 평가 프레임워크. 게임에서 보이스 챗봇, 음성 인식 NPC 만들 때 평가 지표가 참 어렵다. latency, 자연스러움, 컨텍스트 유지 등을 어떻게 측정할지. EVA가 이걸 체계화했다. 참고할 만하다.

출처: HuggingFace Blog

AI Hype Index: AI goes to war

https://www.technologyreview.com/2026/03/25/1134571/the-ai-hype-index-ai-goes-to-war/

MIT Tech Review의 AI 과열 지수. Anthropic과 펜타곤의 갈등, OpenAI의 군사 계약 등을 다룬다. AI가 군사 분야에 들어가는 속도와 그에 따른 윤리적 논쟁. 기술자로서 주목해야 할 건, 어떤 용도로 쓰이든 인프라와 최적화 기술은 동일하다는 점이다.

출처: MIT Technology Review


오늘 교훈: pip install 할 때마다 한 번 더 생각하자. 그리고 중국 오픈소스 모델, 성능 좋은 게 많으니 편견 없이 써보자.

← 이전 글
AI 업데이트: GPT-5.4 수학 난제 해결, LiteLLM 공급망 공격, FlashAttention-4
다음 글 →
AI 업데이트: GPT-5.4 수학 난제 해결, Karpathy 자율 에이전트, LiteLLM 해킹 사태