AI 업데이트: FlashAttention-4, 중국 오픈소스, 그리고 보안 공격

이 글은 AI 검수에서 통과하지 못했습니다 (점수: 55/100)

⚠️ 비어있는 섹션이 있다 🚫 죽은 링크: https://medium.com/ai-advances/flashattention-4-python-gpu-kernel-blackwell-2b18f51c8b32?sk=59bca93c369143e5f74fb0f86e57e6d0 (403) 🚫 죽은 링크: https://www.reuters.com/business/autos-transportation/chinas-open-source-dominance-threatens-us-ai-lead-us-advisory-body-warns-2026-03-23/ (401)

링크 오류, 품질 미달 등의 사유로 자동 분류된 글입니다.

🤖 1674 in / 5034 out / 6708 total tokens

FlashAttention-4가 Python으로 작성됐는데 Triton보다 2.7배 빠르다. 세상이 또 바뀌었다.

🔥 핫 토픽

FlashAttention-4: Python으로 1613 TFLOPs/s 달성

FlashAttention-4

Blackwell B200에서 BF16 forward 1,613 TFLOPs/s. 71% 활용률이다. 더 황당한 건 Triton으로 작성된 게 아니라 순수 Python이라는 거. 커널 최적화의 민주화가 오고 있다. 게임 서버 최적화하던 감각으로 보면, 이제 GPU 커널도 asm이나 CUDA C++ 안 짜도 되는 세상. 물론 내부적으로는 뭔가 하겠지만, 진입장벽이 무너지는 건 확실하다. inference 비용 계산기 다시 짜야겠다.

출처: Medium - AI Advances

GPT-5.4 Pro, 미해결 수학 문제 풀어

GPT-5.4 Pro solves frontier math

Ramsey Hypergraphs 문제를 풀었다. 이건 진짜다. Epoch AI가 확인했다. 모델이 찍은 게 아니라 실제로 증명을 제시했다는 의미. 게임 개발자 입장에서 생각하면, 이제 프로시저럴 콘텐츠 생성에 필요한 복잡한 수학적 검증도 AI가 할 수 있다는 뜻. NPC 행동 트리의 수학적 증명 같은 거? 가능해질지도.

출처: Epoch AI

Andrej Karpathy의 자율 AI 연구 에이전트

Karpathy's autonomous AI agent

2일 만에 700개의 실험을 돌렸다. 연구자 한 명이 평생 할 일을 48시간에. Loop라는 프로젝트인데, AI가 스스로 가설 세우고 실험 설계하고 결과 분석하고 다음 실험 계획하는 걸 자동화했다. 사이드프로젝트 빌더로서 무릎을 탁 친다. 내 AI 프로젝트들도 이렇게 돌려야지. 근데 700개 실험 비용은 얼마일까. 그게 더 궁금하다.

출처: Fortune

🌏 중국 AI 현황

미국 자문기구: 중국 오픈소스가 미국 리드 위협

China's open-source dominance

미국이 드디어 인정했다. 중국 오픈소스 모델들이 미국의 AI 패권을 위협한다고. 당연한 얘기다. Qwen, DeepSeek, Yi 계열이 성능도 좋고 가볍고 무료다. UE5 프로젝트에 LLM 붙일 때도 Qwen 2.5가 GPT-4o보다 로컬에서 돌리기 편하다. 폐쇄적인 건 미국이 먼저 했고, 이제 그 결과를 걱정하는 걸 보면 아이러니하다.

출처: Reuters

중국 LLM 생태계 정리

The current state of Chinese LLMs

ByteDance의 dola-seed(aka doubao)가 현재 마스터. Alibaba의 Qwen 시리즈, Baidu의 ERNIE, Tencent의 Hunyuan, 그리고 신생 DeepSeek까지. 한국 개발자 입장에서 중국 모델 쓸 때는 정치적 민감 이슈만 조심하면 된다. 성능 가성비는 진짜 최고다. 특히 doubao는 API 가격이 거의 무료 수준.

출처: Reddit r/LocalLLaMA

RYS II: 레이어 반복으로 '보편 언어' 찾기

RYS II with Qwen3.5 27B

H100으로 여러 날 굴려서 얻은 결과란다. 레이어를 반복해서 쌓으면 모델이 '보편 언어' 같은 걸 학습한다는 실험. 아직 완전히 이해는 안 됐지만, 모델 아키텍처에 대한 새로운 통찰을 줄 수 있을 듯. 게임 엔진 아키텍처처럼, 신경망도 아직 우린 모르는 구조적 특성이 많이 남아 있다.

출처: Reddit r/LocalLLaMA

🎮 게임 개발 관련

SillyTavern 확장으로 게임 NPC에 생명 불어넣기

SillyTavern NPC Extension

이거 진짜다. SillyTavern을 백엔드로 쓰고 작은 모드만 브릿지로 연결하면 어떤 게임이든 NPC가 살아움직인다. 현재 Cydonia를 RP 모델로, Qwen 3.5를 백엔드로 사용 중. UE5에서 비슷한 거 구현하려면 C++로 HTTP 클라이언트 붙이고 스트리밍 응답 처리하면 된다. 이미 했다. 근데 이 사람이 훨씬 깔끔하게 만들었다.

출처: Reddit r/LocalLLaMA

⚠️ 보안 이슈

Litellm 1.82.7, 1.82.8 PyPI 패키지 해킹당함

Litellm compromised on PyPI

지금 당장 업데이트 멈춰라. supply chain attack이다. PyPI에 올라간 패키지가 해킹당해서 악성 코드가 포함됐다. 수천 명이 이미 당했을 거란다. 나도 Litellm 쓰는 프로젝트 있어서 식은땀 났다. requirements.txt 버전 고정해둔 건 천만다행. 의존성 관리는 게임 개발이든 AI든 진짜 중요하다.

출처: Reddit r/LocalLLaMA

📄 기타

EVA: 음성 에이전트 평가 프레임워크

EVA Framework

ServiceNow AI가 HuggingFace에 올린 음성 에이전트 평가 프레임워크. 게임 내 음성 AI 구현할 때 유용할 것 같다. 지금은 TTS + STT + LLM 따로 붙여서 쓰는데, 이걸 통합 평가할 수 있는 기준이 생긴 건 반갑다.

출처: HuggingFace Blog

Python이 C++보다 빠른 세상. AI가 수학 정리 증명하는 세상. 이제 뭘 믿고 개발해야 할지 모르겠다. 그게 요즘 세상이다.

FlashAttention LLM 보안 중국AI 게임개발 Karpathy 오픈소스 검수실패

← 이전 글

AI 업데이트: 중국 오픈소스의 약진과 FlashAttention-4, 그리고 공급망 공격

다음 글 →

AI 업데이트: LiteLLM 공급망 공격, FlashAttention-4, 그리고 중국 오픈소스의 약진