AI 업데이트: 보안 이슈, 추론 성능, 그리고 중국의 오픈소스 약진

이 글은 AI 검수에서 통과하지 못했습니다 (점수: 55/100)

⚠️ 비어있는 섹션이 있다 🚫 죽은 링크: https://www.reuters.com/business/autos-transportation/chinas-open-source-dominance-threatens-us-ai-lead-us-advisory-body-warns-2026-03-23/ (401) 🚫 죽은 링크: https://medium.com/ai-advances/flashattention-4-python-gpu-kernel-blackberry-2b18f51c8b32 (403)

링크 오류, 품질 미달 등의 사유로 자동 분류된 글입니다.

🤖 1941 in / 5223 out / 7164 total tokens

오늘은 공급망 공격, FlashAttention-4, 그리고 중국 LLM 생태계 이야기다.

🔥 핫 토픽

LiteLLM PyPI 패키지 해킹 당함

LiteLLM 1.82.7, 1.82.8 버전이 PyPI에서 해킹됐다. 공급망 공격(supply chain attack)이다. 수천 명이 영향받았을 것으로 추정된다.

이게 왜 중요하냐면, LiteLLM은 거의 모든 LLM 프로젝트에서 쓰는 래퍼 라이브러리다. npm의 left-pad 사태 생각하면 된다. 의존성 하나가 털리면 전체 프로젝트가 털리는 구조다. 게임 서버나 AI 백엔드 쓰는 분들, 버전 확인하고 당장 롤백하자.

출처: Reddit r/LocalLLaMA

GPT-5.4 Pro가 수학 난제 풀었다

Epoch AI가 확인한 바에 따르면, GPT-5.4 Pro가 frontier math의 미해결 문제 하나를 풀었다고 한다. Ramsey Hypergraphs 문제다.

솔직히 말하면 나는 수학자가 아니라서 이게 얼마나 대단한지 정확히는 모른다. 하지만 "미해결 문제를 푼다"는 건 단순한 패턴 매칭을 넘어섰다는 뜻이다. 게임 AI로 치면 NPC가 룰을 이해하고 새로운 전략을 만들어내는 수준이다.

출처: Epoch AI

Karpathy의 자율 AI 에이전트가 2일 만에 700개 실험 수행

Andrej Karpathy가 만든 자율 AI 연구 에이전트가 2일 동안 700개의 실험을 돌렸다. 인간 연구자가 몇 주 걸릴 일이다.

이게 게임 개발자 관점에서 흥미로운 이유는, 결국 "반복적인 작업을 자동화"라는 게 AI의 본질이기 때문이다. 우리가 테스트 자동화, 빌드 파이프라인 돌리는 거랑 같은 맥락이다. 차이가 있다면, AI가 스스로 실험을 설계하고 실행한다는 점.

출처: Fortune via Reddit

📰 뉴스

중국 오픈소스 AI가 미국 리드를 위협한다?

미국 자문기구가 중국의 오픈소스 AI 지배력이 미국의 AI 우위를 위협한다고 경고했다.

재밌는 건 중국은 진짜 오픈소스를 잘한다. Qwen, DeepSeek, Yi, Baichuan... 다 성능 좋고 진짜로 공개한다. 미국 기업들은 "오픈"이라고 해놓고 가중치는 안 주는 경우가 많다. 게임 업계로 치면 소스 코드 공개 vs 바이너리만 공개 차이다.

출처: Reuters via Reddit

중국 LLM 생태계 정리

Reddit에 중국 LLM 현황을 정리한 글이 올라왔다. ByteDance(doubao), Alibaba(Qwen), Baidu, Tencent, Moonshot 등의 동향을 설명한다.

한 가지 확실한 건, 중국은 진짜 경쟁이 치열하다. 우리가 GPT랑 Claude만 쳐다보는 동안, 중국은 훨씬 더 다양한 모델들이 난립해서 경쟁 중이다. 게임 엔진 시장이 Unity, Unreal 양강구도인 거랑은 다른 풍경이다.

출처: Reddit r/LocalLLaMA

GPU 가격이 드디어 내려가나?

r/LocalLLaMA에 가격 하락 짤이 올라왔다. 진짜일지는 모르겠지만, 커뮤니티는 반응이 좋다.

로컬 LLM 돌리는 입장에서는 H100 가격이 내려가면 좋겠지만, 솔직히 회의적이다. 코로나 때 GPU 가격 폭등 이후로 믿음이 없다.

출처: Reddit r/LocalLLaMA

🔧 기술 & 오픈소스

FlashAttention-4: Triton보다 2.7배 빠르다

FlashAttention-4가 나왔다. B200에서 1,613 TFLOPs/s, BF16 forward 기준 71% 활용률이다. 그리고 Python으로 작성됐다.

이게 왜 중요하냐. 추론 latency가 줄어든다 = 게임에서 실시간 AI NPC가 더 빨라진다. Triton 대비 2.7배라면, 100ms 걸리던 게 37ms로 줄어드는 셈이다. 30fps 게임에서 3프레임 vs 1프레임 차이다. Python으로 작성됐다는 것도 포팅하기 좋다.

출처: Medium

RYS II - Qwen3.5 27B로 레이어 반복 실험

H100을 굴려서 Qwen3.5 27B로 레이어 반복 실험을 했다. "Universal Language"에 대한 힌트도 있다고 한다.

레이어 반복은 모델 구조 실험에서 꽤 오래된 아이디어다. 메모리 아끼면서 깊이를 늘리는 트릭인데, 실제로 얼마나 효과가 있을지는 직접 돌려봐야 안다. 블로그 글이 너무 길다고 본인이 인정했는데, 요약은 모델이 올라왔다는 거.

출처: Reddit r/LocalLLaMA

SillyTavern 확장으로 게임 NPC에 생명 불어넣기

SillyTavern을 백엔드로 써서 게임 NPC에 AI를 입히는 확장이다. Cydonia를 RP 모델로 쓰고 Qwen 3.5를 활용한다.

이건 게임 개발자 입장에서 진짜 흥미롭다. 모드 하나만 있으면 어떤 게임이든 AI NPC를 붙일 수 있는 구조다. UE5에서 비슷한 거 만들려면 메인 게임 루프랑 AI 추론 루프를 분리해서 돌려야 하는데, 이 접근은 아예 외부 프로세스로 처리한다. 지연 시간 관리가 관건일 듯.

출처: Reddit r/LocalLLaMA

EVA: 음성 에이전트 평가 프레임워크

HuggingFace에 음성 AI 에이전트 평가 프레임워크가 올라왔다.

음성 인터페이스는 게임에서도 중요하다. 보이스 채팅, 음성 명령, AI NPC 대화... 근데 평가가 어렵다. "자연스러운 대화"를 어떻게 측정하냐. EVA는 이걸 프레임워크로 정리했다. 벤치마크 만드는 사람들 참고하면 좋겠다.

출처: HuggingFace Blog

Agentic Commerce: 에이전트가 대신 쇼핑한다

"내 포인트로 이탈리아 가족 여행 예약해. 예산 내에서, 우리가 좋아했던 호텔 위주로." 이렇게 말하면 에이전트가 알아서 처리하는 세상이 오고 있다.

이게 게임이랑 관련 있나? 있다. 인게임 상거래, 마켓플레이스, 퀘스트 보상 최적화... 결국 AI 에이전트가 플레이어를 대신해 결정하는 시나리오가 늘어갈 거다. 문제는 "신뢰"와 "컨텍스트"를 어떻게 보장하느냐다.

출처: MIT Tech Review

AI Hype Index: AI가 전쟁터로

Anthropic과 펜타곤이 Claude 무기화로 싸웠고, OpenAI는 "기회주의적이고 엉성한" 딜로 펜타곤과 계약했다는 이야기다.

군사 AI는 언제나 논란의 대상이다. 게임으로 치면 "살인 게임" 논란이랑 비슷한 맥락. 기술 자체는 중립인데, 어디에 쓰느냐가 문제다. 우리 같은 일반 개발자는 그냥 구경만 하면 되지만, 방향성은 계속 지켜봐야 한다.

출처: MIT Tech Review

오늘의 교훈: PyPI 패키지는 항상 버전 확인하고, 중국 오픈소스 무시하지 말고, FlashAttention-4는 추론 최적화에 쓸만하다.

security flashattention china-ai llm inference open-source supply-chain 검수실패

← 이전 글

AI 업데이트: GPT-5.4 수학 난제 해결, Karpathy 자율 에이전트, LiteLLM 해킹 사태

다음 글 →

AI 업데이트: 공급망 공격, FlashAttention-4, 그리고 게임 NPC