hallucination

AI 업데이트: LiteLLM 서플라이체인 공격, FlashAttention-4, 중국 LLM 현황

R
이더
2026. 03. 25. AM 02:21 · 10 min read · 0

이 글은 AI 검수에서 통과하지 못했습니다 (점수: 55/100)

⚠️ 비어있는 섹션이 있다 🚫 죽은 링크: https://medium.com/ai-advances/flashattention-4-python-gpu-kernel-blackwell-2b18f51c8b32 (403) 🚫 죽은 링크: https://www.reuters.com/business/autos-transportation/chinas-open-source-dominance-threatens-us-ai-lead-us-advisory-body-warns-2026-03-23/ (401)

링크 오류, 품질 미달 등의 사유로 자동 분류된 글입니다.


🤖 1957 in / 5046 out / 7003 total tokens

오늘 가장 중요한 소식은 LiteLLM 패키지가 서플라이체인 공격을 당했다는 거다. 수천 명이 영향받았을 수 있으니 pip install 했다면 당장 확인해라.

🔥 핫 토픽

LiteLLM Python 패키지 서플라이체인 공격 당함

https://github.com/BerriAI/litellm/issues/24512

LiteLLM 1.82.7과 1.82.8 버전이 악성 코드에 감염됐다. litellm_init.pth 파일에 credential stealer가 숨어있었다. PyPI에서 다운로드했다면 API 키가 탈취됐을 수 있다.

이게 왜 무서우냐면 LiteLLM은 LLM API 호출을 추상화해주는 라이브러리다. 즉, 이미 OpenAI, Anthropic 같은 API 키를 이 라이브러리에 넘겨준 사용자들이 많다는 거다. 게임 서버도 마찬가지지만, 의존성 패키지 하나 털리면 전체가 털린다. requirements.txt 고정하고 checksum 검증하는 습관 들여야 한다.

출처: GitHub Issue

LM Studio도 멀웨어 의심

https://i.redd.it/kmwwgv6bmzqg1.jpeg

로컬 LLM 실행 도구인 LM Studio에서 정교한 멀웨어가 감지됐다는 제보가 올라왔다. 아직 확실하진 않지만 윈도우 디펜더가 3번이나 걸렸다고 한다.

로컬에서 모델 돌리는 도구들은 파일 시스템 접근 권한이 크다. 게임 개발할 때도 외부 툴 쓸 때는 샌드박스 환경에서 먼저 테스트하는 게 기본이다.

출처: Reddit r/LocalLLaMA

⚡ 성능 & 최적화

FlashAttention-4: Triton 대비 2.7배 빠름

https://medium.com/ai-advances/flashattention-4-python-gpu-kernel-blackwell-2b18f51c8b32

FlashAttention-4가 B200에서 BF16 포워드 1,613 TFLOPs/s를 달성했다. 71% 활용률이라니 GPU 효율 끝판왕이다. 더 흥미로운 건 Python으로 작성됐다는 거.

UE5에서도 CUDA 커널 최적화할 때 Triton 쓰는 게 트렌드였는데, 이제 Python 레벨에서도 이 정도 성능이 나온다면 추론 서버 구축할 때 진입장벽이 확 낮아진다. Blackwell 아키텍처 활용법 참고할 만하다.

출처: Medium

RYS II - Qwen3.5 27B로 반복 레이어 실험

https://www.reddit.com/r/LocalLLaMA/comments/1s1t5ot/rys_ii_repeated_layers_with_qwen35_27b_and_some/

H100을 굴려서 Qwen3.5 27B로 레이어 반복 실험을 했다. 'Universal Language'에 대한 힌트도 있다는데, 아키텍처 레벨에서 모델 동작 방식을 파헤치는 실험이다.

모델 구조 최적화는 게임 엔진 최적화랑 비슷하다. 어디가 병목인지, 어떤 레이어가 실제로 기여하는지 알면 추론 비용을 획기적으로 줄일 수 있다.

출처: Reddit r/LocalLLaMA

🌏 중국 AI 현황

중국 오픈소스 AI가 미국 리드를 위협한다

https://www.reuters.com/business/autos-transportation/chinas-open-source-dominance-threatens-us-ai-lead-us-advisory-body-warns-2026-03-23/

미국 자문기구에서 중국의 오픈소스 AI 전략이 미국의 AI 패권을 위협한다고 경고했다.

중국은 정책적으로 오픈소스를 밀어주고 있다. Qwen, DeepSeek, Yi 같은 모델들이 성능면에서 GPT급에 육박하는데 가격은 훨씬 싸다. 개발자 입장에선 고마운 일이지만, 지정학적 관점에선 복잡해지는 상황이다.

출처: Reuters

중국 LLM 생태계 정리

https://www.reddit.com/r/LocalLLaMA/comments/1s1gm9z/the_current_state_of_the_chinese_llms_scene/

ByteDance의 Doubao(Seed), Alibaba의 Qwen, DeepSeek 등 중국 LLM 현황을 체계적으로 정리한 글이다.

ByteDance가 의외로 강력하다. 추천 알고리즘으로 먹고 살던 곳이 LLM에서도 약진 중이다. 게임으로 치면 넥슨이나 크래프톤이 갑자기 AI 모델 내서 성공한 느낌?

출처: Reddit r/LocalLLaMA

🛠️ 개발 도구

Claude Code Cheat Sheet

https://cc.storyfox.cz

Claude Code 사용법을 한 페이지에 정리한 치트시트다. 터미널에서 Claude로 코딩할 때 유용한 명령어와 팁들이 모여있다.

요즘 AI 코딩 어시스턴트 안 쓰면 효율이 떨어질 수밖에 없다. UE5 C++도 마찬가지. 다만 자동완성 의존하다 보면 기본기가 녹을 수 있으니 균형이 필요하다.

출처: Storyfox

graphbot - LLM 10배 똑똑하게 만들기

https://github.com/LucasDuys/graphbot

재귀적 DAG 분해와 시간 지식 그래프를 조합해서 싼 모델로 비싼 모델 수준의 성능을 낸다. 30개 태스크 모두 통과했는데 총 비용이 $0.0006라니.

RAG랑 비슷해 보이지만 구조가 다르다. 지식을 그래프로 구조화하고 시간 축까지 고려한다. 게임 NPC 대화 시스템에 적용하면 기억력 좋은 캐릭터 만들 수 있을 듯.

출처: GitHub

SillyTavern 게임 NPC 확장

https://v.redd.it/9ju2tp2gezqg1

SillyTavern을 백엔드로 써서 어떤 게임이든 NPC를 살아움직이게 만드는 확장이다. 게임과 SillyTavern 사이에 작은 모드 브리지만 있으면 된다. 현재 Cydonia를 RP 모델로, Qwen 3.5를 백엔드로 쓴다고 한다.

UE5에서 비슷한 거 만들어본 입장에서 말하면, NPC AI를 외부 서버로 빼는 건 좋은 아키텍처다. 게임 클라이언트는 렌더링에 집중하고, AI 추론은 별도 프로세스나 서버에서 돌리는 게 확장성에 유리하다.

출처: Reddit r/LocalLLaMA

🤖 AI 에이전트

Karpathy의 자율 AI 연구 에이전트, 2일간 700개 실험 수행

https://fortune.com/2026/03/17/andrej-karpathy-loop-autonomous-ai-agents-future/

Andrej Karpathy가 만든 Loop 에이전트가 이틀 동안 700개의 실험을 돌렸다. 인간 연구자가 몇 달 걸릴 일을 했다.

이게 게임 개발에도 시사하는 바가 크다. 밸런싱 테스트, 버그 리프로덕션, 성능 프로파일링 같은 반복 작업을 에이전트에 맡기면 개발자는 창의적 작업에 집중할 수 있다. 다만 에이전트가 멍청한 짓을 반복하지 않도록 감시 로직은 필수다.

출처: Fortune

📄 프레임워크 & 논문

EVA - 음성 에이전트 평가 프레임워크

https://huggingface.co/blog/ServiceNow-AI/eva

HuggingFace와 ServiceNow가 음성 AI 에이전트 평가를 위한 새 프레임워크를 공개했다.

게임에서 보이스 챗봇 만들 때 평가가 제일 어렵다. 텍스트는 로그 보면 되는데, 음성은 발음, 억양, 응답 속도, 자연스러움까지 다 봐야 한다. 이런 거 표준화해주는 프레임워크는 환영할 일이다.

출처: HuggingFace Blog


오늘의 교훈: pip install은 신중하게, 중국 오픈소스는 눈여겨보고, FlashAttention-4는 연구해두자.

← 이전 글
AI 업데이트: 공급망 공격 경고, 중국 LLM 현황, 그리고 Claude Code 치트시트
다음 글 →
AI 업데이트: LiteLLM 서플라이체인 공격, FlashAttention-4, 그리고 게임 NPC 혁명