AI 업데이트: 공급망 공격 경고, FlashAttention-4, 그리고 중국 LLM의 약진

이 글은 AI 검수에서 통과하지 못했습니다 (점수: 55/100)

⚠️ 비어있는 섹션이 있다 🚫 죽은 링크: https://www.reuters.com/business/autos-transportation/chinas-open-source-dominance-threatens-us-ai-lead-us-advisory-body-warns-2026-03-23/ (401) 🚫 죽은 링크: https://medium.com/ai-advances/flashattention-4-python-gpu-kernel-blackwell-2b18f51c8b32?sk=59bca93c369143e5f74fb0f86e57e6d0 (403)

링크 오류, 품질 미달 등의 사유로 자동 분류된 글입니다.

🤖 1957 in / 4419 out / 6376 total tokens

오늘 AI 생태계에 큰 일이 터졌다. LiteLLM이 공격당했다.

🔥 핫 토픽: 공급망 공격

LiteLLM 1.82.7~1.82.8, 악성코드 감염

LiteLLM이 공급망 공격을 당했다. PyPI에 올라간 1.82.7과 1.82.8 버전에 litellm_init.pth라는 악성 파일이 포함됐는데, 이게 credential stealer다. 비밀번호, API 키 다 훔친다.

우리 같이 사이드 프로젝트 하는 사람들은 LiteLLM 엄청 쓴다. LLM API 호출 하나로 추상화해주는 라이브러리인데, 이게 뚫리면 OpenAI 키, Anthropic 키 다 날아가는 거다. 당장 버전 확인하고, 1.82.6 이하로 내리거나 1.52.9 이상(패치된 버전)으로 업데이트해라.

출처: GitHub Issue

LM Studio도 의심스러운 활동

로컬 LLM 돌릴 때 많이 쓰는 LM Studio에서도 악성코드 의심 신고가 올라왔다. 아직 확실하진 않지만, 윈도우 디펜더가 3번이나 잡아냈다고. False positive일 수도 있지만, 요즘 분위기 보면... 긴장할 필요 있다.

출처: Reddit r/LocalLLaMA

게임 개발할 때도 서드파티 라이브러리 보안은 늘 headache다. 의존성 하나가 터지면 프로젝트 전체가 날아가니까.

📰 뉴스

중국 오픈소스 LLM, 미국 리드 위협

미국 자문기구가 경고했다. 중국의 오픈소스 AI 전략이 미국의 AI 패권을 위협한다고. Qwen, DeepSeek, Yi 같은 모델들이 성능도 좋고 무료다. 진짜 문제는 이게 "기술 우위"가 아니라 "생태계 장악"에서 온다. 모두가 중국 모델로 개발하게 되면, 그게 표준이 되니까.

출처: Reuters

중국 LLM 현황 정리

Reddit에 중국 LLM 생태계 정리가 올라왔다. ByteDance의 Doubao(구 dola-seed), Alibaba의 Qwen, DeepSeek, Moonshot, Zhipu 등. 한국 개발자로서 이 쪽은 계속 지켜봐야 한다. 성능 좋고 가격 싸고 오픈웨이트다. 특히 Qwen은 이미 많은 프로젝트에서 디폴트 선택지가 됐다.

출처: Reddit r/LocalLLaMA

Karpathy의 자율 AI 에이전트, 2일간 700번 실험

Andrej Karpathy가 만든 자율 AI 연구 에이전트가 2일 만에 700개의 실험을 돌렸다. 인간이 하면 몇 주 걸릴 일이다. 이게 의미하는 건? AI가 AI를 연구하고 개선하는 루프가 현실화하고 있다. 게임 개발로 치면 자동화된 빌드/테스트 시스템이 스스로 코드를 최적화하는 수준이다.

출처: Fortune

🛠 개발자 도구

Claude Code Cheat Sheet

Claude Code 쓰는 사람들 필수. 단축키, 프롬프트 패턴, 디버깅 팁까지 정리돼 있다. Claude Code는 터미널에서 돌아가는 IDE 같은 거다. VS Code 익스텐션이 아니라 독립 실행형이라 더 가볍다.

출처: cc.storyfox.cz

GraphBot: LLM 10배 똑똑하게

재미있는 프로젝트다. DAG 분해 + 시간 기반 지식 그래프로 싼 모델이 비싼 모델 성능을 내게 한다. 30개 태스크 통과에 총 $0.0006. 프롬프트 엔지니어링이 아니라 구조적 접근으로 성능을 올리는 거다. UE5의 서브시스템처럼 문제를 쪼개서 처리하는 사고방식이랑 비슷하다.

출처: GitHub

SillyTavern로 게임 NPC 살리기

SillyTavern 확장을 만들어서 어떤 게임이든 NPC를 살아움직이게 만들었다. 게임 모드가 브릿지 역할만 하고, 실제 대화는 SillyTavern가 처리한다. Cydonia랑 Qwen 3.5 썼다고. 우리 같은 게임 개발자한테는 꽤 매력적인 아키텍처다. 게임 엔진은 렌더링만, AI는 외부에서.

출처: Reddit r/LocalLLaMA

⚡ 성능

FlashAttention-4: 1,613 TFLOPs/s, Triton보다 2.7배 빠름

FlashAttention-4가 나왔다. B200에서 BF16 forward 기준 1,613 TFLOPs/s. 71% 활용률이다. 그리고 놀랍게도 Python으로 작성됐다. 커널 최적화를 Triton 대신 Python으로 한다니 세상이 바뀌었다.

추론 관점에서 중요한 건 메모리 대역폭 병목을 얼마나 우회하느냐다. FlashAttention은 attention 계산을 청크 단위로 쪼개서 SRAM에 올려버린다. L2 캐시 히트율이 중요한 건 게임 렌더링이랑 똑같다.

출처: Medium

RYS II: Qwen3.5 27B로 반복 레이어 실험

H100으로 Qwen3.5 27B에 레이어 반복 실험을 돌렸다. "Repeated Yarn Stretching" 기법인데, 같은 레이어를 여러 번 통과시켜서 사고 깊이를 늘리는 거다. 결과가 꽤 흥미롭다. 모델 크기 안 키우고 성능 올리는 방법 중 하나. 게임으로 치면 LOD 같은 건데, 연산을 더 할지 메모리를 더 쓸지 트레이드오프다.

출처: Reddit r/LocalLLaMA

📄 연구

EVA: 음성 에이전트 평가 프레임워크

HuggingFace에서 음성 AI 에이전트 평가 프레임워크를 공개했다. 음성 인식-이해-응답-합성 전체 파이프라인을 평가한다. 실시간성, 지연 시간, 자연스러움까지. 우리 같이 게임 NPC 만드는 사람들한테 꽤 유용할 듯. TTS + LLM + STT 통합할 때 벤치마크가 필요하니까.

출처: HuggingFace Blog

오늘의 교훈: 의존성 업데이트는 신중하게. LiteLLM 쓰는 프로젝트 있으면 당장 확인해라.

security supply-chain-attack flashattention chinese-llm llm-tools 검수실패

← 이전 글

AI 업데이트: 공급망 공격 경고, FlashAttention-4, 그리고 중국 LLM 생태계

다음 글 →

AI 업데이트: LiteLLM 공급망 공격과 FlashAttention-4, 그리고 중국 AI