AI 업데이트: 공급망 공격, FlashAttention-4, 그리고 게임 NPC

🤖 2037 in / 5548 out / 7585 total tokens

오늘자 뉴스 중 가장 눈에 띄는 건 LiteLLM 패키지 해킹이다. AI 인프라 보안이 점점 더 중요해지는 시점에서, 이런 공급망 공격은 정말 조심해야 한다.

🔥 핫 토픽

LiteLLM 1.82.7~8, PyPI에서 해킹당함

https://www.reddit.com/r/LocalLLaMA/comments/1s2c1w4/litellm_1827_and_1828_on_pypi_are_compromised_do/

LiteLLM이 PyPI에서 supply chain attack을 당했다. 버전 1.82.7과 1.82.8이 악성 코드가 포함된 상태로 배포됐다. 수천 명이 영향을 받았을 것으로 추정된다.

왜 중요한가: 로컬 LLM API 래퍼로 널리 쓰이는 라이브러리다. 의존성 검증 없이 pip install 하는 습관 들어있으면 진짜 큰일 난다. 게임 서버나 AI 백엔드에서 이런 라이브러리 쓸 때는 항상 버전 고정하고 checksum 검증해야 한다.

GPT-5.4 Pro, Frontier Math 공개 문제 해결

https://epoch.ai/frontiermath/open-problems/ramsey-hypergraphs

Epoch AI가 확인한 바에 따르면 GPT-5.4 Pro가 Ramsey Hypergraphs 공개 문제를 풀었다. 수학계의 난제를 AI가 해결한 셈이다.

왜 중요한가: 모델의 추론 능력이 어디까지 갈지 모르겠다. 게임 AI로 치면 pathfinding 알고리즘 최적화 같은 복잡한 수학 문제도 머지않아 AI가 풀어줄 수 있을지도.

FlashAttention-4: 1,613 TFLOPs/s, Triton 대비 2.7배 빠름

https://medium.com/ai-advances/flashattention-4-python-gpu-kernel-blackwell-2b18f51c8b32

FlashAttention-4가 B200에서 BF16 forward 기준 1,613 TFLOPs/s를 달성했다. 특이한 건 Python으로 작성됐다는 점. Triton 대비 2.7배 빠르다고.

왜 중요한가: 인퍼런스 성능 최적화에 관심 있는 사람이라면 무조건 봐야 한다. 게임 서버에서 실시간 AI 인퍼런스 돌릴 때 이런 최적화가 latency 차이를 만든다. Python으로 GPU 커널 짜는 시대가 오다니.

📰 뉴스

중국 오픈소스 AI, 미국 리드 위협한다고

https://www.reuters.com/business/autos-transportation/chinas-open-source-dominance-threatens-us-ai-lead-us-advisory-body-warns-2026-03-23/

미국 자문기구가 중국의 오픈소스 AI 지배력이 미국의 AI 우위를 위협한다고 경고했다.

왜 중요한가: 정치적 내용이지만, 개발자 입장에서는 중국 모델들이 진짜 잘 나오고 있다는 방증이다. Qwen 시리즈만 봐도 알 수 있지. 지금은 DeepSeek도 있고.

중국 LLM 현황 정리

https://www.reddit.com/r/LocalLLaMA/comments/1s1gm9z/the_current_state_of_the_chinese_llms_scene/

ByteDance의 dola-seed(doubao)가 현재 중국 시장의 리더. 그 외에도 여러 기업들이 치열하게 경쟁 중이라는 요약.

왜 중요한가: 중국은 데이터도 많고 인력도 많다. 게다가 오픈소스에 공격적이다. 로컬 LLM 사용자 입장에서는 선택지가 많아지니 좋은 일.

GPU 가격, 드디어 내려가나?

https://i.redd.it/gbyt7weh32rg1.jpeg

Reddit에 올라온 이미지를 보면 GPU 가격이 하락하는 추세라는 이야기.

왜 중요한가: 글쎄, 믿거나 말거나다. 코로나 때도 가격 내려간다고 하더니 폭등했으니까. 하지만 로컬 LLM 하려는 사람에게는 반가운 소식이긴 하다.

AI 전쟁: Anthropic vs Pentagon vs OpenAI

https://www.technologyreview.com/2026/03/25/1134571/the-ai-hype-index-ai-goes-to-war/

Anthropic은 Pentagon과 협력 방식을 두고 갈등했고, OpenAI는 "기회주의적이고 조잡한" 딜로 Pentagon을 낚았다고. 그러다가 사용자들이 ChatGPT를 떠나기 시작했다는 이야기.

왜 중요한가: AI 윤리와 군사적 활용 사이의 긴장이 현실화되고 있다. 어떤 모델을 쓸지 선택할 때 이런 배경도 고려해야 할 시점.

🎮 게임 & NPC

SillyTavern 확장으로 게임 NPC에 생명 불어넣기

https://v.redd.it/9ju2tp2gezqg1

SilleyTavern을 백엔드로 사용해서 어떤 게임이든 NPC를 살아있게 만드는 확장이다. 게임과 SillyTavern 사이에 작은 모드 브리지만 있으면 된다. 현재 Cydonia를 RP 모델로, Qwen 3.5를 백엔드로 사용 중이라고.

왜 중요한가: 이거 진짜 흥미롭다. UE5에서도 비슷하게 구현할 수 있을 것 같다. HTTP 통신으로 로컬 LLM 서버랑 연결하면, NPC 대화 시스템을 완전히 바꿀 수 있다. 물론 실시간 latency 관리가 관건이지만.

🤖 에이전트

Karpathy의 자율 AI 연구 에이전트, 2일간 700개 실험 수행

https://fortune.com/2026/03/17/andrej-karpathy-loop-autonomous-ai-agents-future/

Andrej Karpathy가 만든 Loop라는 자율 AI 연구 에이전트가 2일 동안 700개의 실험을 돌렸다. AI가 AI를 연구하는 시대가 오고 있다는 걸 보여주는 사례.

왜 중요한가: 개발자의 생산성을 극단적으로 높일 수 있는 방향이다. "이 기능 구현해" 하고 놔두면 알아서 여러 버전 만들어서 테스트하는 거다. 물론 지금은 연구 쪽이지만, 머지않아 게임 개발에도 적용될 것 같다.

Agentic Commerce: 진실과 컨텍스트가 핵심

https://www.technologyreview.com/2026/03/25/1134516/agentic-commerce-runs-on-truth-and-context/

"포인트 써서 이탈리아 가족 여행 예약해. 예산 내로, 좋아했던 호텔 위주로." 이런 식으로 에이전트에게 말하면 알아서 처리하는 시대가 오고 있다.

왜 중요한가: 결국 컨텍스트가 핵심이다. 사용자의 과거 행동, 선호, 제약 조건을 이해하는 에이전트가 이긴다. 게임 NPC도 마찬가지다. 플레이어의 행동 이력을 기억하고 반응하는 NPC가 진짜다.

⭐ 오픈소스 & 도구

RYS II: Qwen3.5 27B로 레이어 반복 실험

https://www.reddit.com/r/LocalLLaMA/comments/1s1t5ot/rys_ii_repeated_layers_with_qwen35_27b_and_some/

H100으로 여러 실험을 돌린 결과물이다. 레이어를 반복하는 기법으로 모델 성능을 끌어올리는 연구. 'Universal Language'에 대한 힌트도 있다고.

왜 중요한가: 모델 아키텍처 실험은 항상 흥미롭다. 레이어 반복 같은 기법은 메모리 효율성과 성능 사이의 트레이드오프를 탐구하는 데 도움이 된다.

EVA: 음성 에이전트 평가 프레임워크

https://huggingface.co/blog/ServiceNow-AI/eva

ServiceNow AI가 HuggingFace에 올린 음성 에이전트 평가 프레임워크다.

왜 중요한가: 음성 AI 평가는 텍스트보다 훨씬 어렵다. latency, 자연스러움, interrupt handling 등등. 이런 프레임워크가 표준이 되면 게임 내 음성 NPC 개발도 수월해질 것 같다.

AI Code Trust Validator

https://github.com/rudra496/ai-code-traitrust-validator

AI가 생성한 코드의 보안 문제, 환각, 로직 에러를 검증하는 도구다. 84%가 AI 코드를 쓰는데 29%만 신뢰한다는 통계가 나와 있다.

왜 중요한가: 나도 Copilot이나 Claude로 코드 짜는데, 버그 진짜 많다. 특히 UE5 C++ 같은 레거시 API가 많은 환경에서는 더더욱. 이런 검증 도구는 필수가 될 것 같다.

오늘의 교훈: pip install 하기 전에 항상 버전 확인하자. 그리고 중국 모델들 계속 눈여겨보자.

supply-chain-attack flashattention game-npc chinese-llm ai-agents local-llm

← 이전 글

AI 업데이트: 보안 이슈, 추론 성능, 그리고 중국의 오픈소스 약진

다음 글 →

Claude가 며칠 만에 우주론 코드를 짰다 — 게임 개발자가 훔치고 싶은 패턴들