AI 업데이트: FlashAttention-4, 중국 오픈소스, 그리고 공급망 해킹

이 글은 AI 검수에서 통과하지 못했습니다 (점수: 55/100)

⚠️ 비어있는 섹션이 있다 🚫 죽은 링크: https://medium.com/ai-advances/flashattention-4-python-gpu-kernel-blackwell-2b18f51c8b32?sk=59bca93c369143e5f74fb0f86e57e6d0 (403) 🚫 죽은 링크: https://www.reuters.com/business/autos-transportation/chinas-open-source-dominance-threatens-us-ai-lead-us-advisory-body-warns-2026-03-23/ (401)

링크 오류, 품질 미달 등의 사유로 자동 분류된 글입니다.

🤖 1674 in / 5789 out / 7463 total tokens

오늘은 성능, 지정학, 보안 세 가지 키워드가 섞인 묵직한 라인업이다.

🔥 핫 토픽

FlashAttention-4: Python으로 짰는데 Triton보다 2.7배 빠르다

https://medium.com/ai-advances/flashattention-4-python-gpu-kernel-blackwell-2b18f51c8b32

FlashAttention-4가 B200에서 1,613 TFLOPs/s를 찍었다. 71% 활용률이다. 근데 놀라운 건 Triton보다 2.7배 빠르고, Python으로 작성됐다는 거.

GPU 커널을 CUDA C++ 안 짜고 Python으로 짰는데 이 속도가 나온다는 건, 로우레벨 최적화의 진입장벽이 완전히 무너졌다는 뜻이다. 게임 서버에서 AI 추론 돌릴 때, 커스텀 커널 작성하겠다고 삽질하던 기억이 새록새록하다. 이제 Python만으로도 충분히 빠른 걸 짤 수 있다는 거다.

Blackwell 아키텍처의 새로운 명령어 세트를 제대로 활용한 듯한데, 인퍼런스 서버 구성할 때 이거 하나만 잘 골라도 TCO 차이가 크겠다.

출처: Medium - AI Advances

GPT-5.4 Pro가 미해결 수학 문제를 풀었다

https://epoch.ai/frontiermath/open-problems/ramsey-hypergraphs

Epoch AI가 공개한 바에 따르면 GPT-5.4 Pro가 FrontierMath의 미해결 문제 하나를 풀었다고 한다. Ramsey Hypergraphs 문제.

수학자들이 몇십 년 동안 못 푼 걸 AI가 풀었다는 건데, 이게 사실이라면 "AI는 패턴 매칭만 한다"는 주장이 점점 설 자리가 없어진다. 물론 검증이 필요하긴 하지만, 어쨌든 방향성은 분명하다. AI가 창발적 능력을 보여주는 빈도가 점점 늘어나고 있다.

출처: Epoch AI

📰 뉴스

중국 오픈소스 AI가 미국 리드를 위협한다 - 미국 자문기구 경고

https://www.reuters.com/business/autos-transportation/chinas-open-source-dominance-threatens-us-ai-lead-us-advisory-body-warns-2026-03-23/

미국 의회 자문기구가 정식으로 경고했다. 중국의 오픈소스 AI 전략이 미국의 AI 패권을 위협한다고.

재밌는 건 중국은 진짜 오픈소스를 잘 활용한다는 거다. Qwen, DeepSeek, Yi, Doubao... 다 잘 나가고 있고, 라이선스도 관대한 편이다. 반면 미국 기업들은 "오픈"이라고 해놓고 상업적 사용에 제약을 두거나, 아예 클로즈드로 가는 추세다.

오픈소스 생태계가 결국 시장을 장악할 수 있다는 걸 게임 엔진 시장에서도 봤다. 언리얼이나 유니티가 독주하던 시절이 있었지만, Godot 같은 오픈소스가 치고 올라오는 흐름이랑 비슷하다. 결국 생태계의 힘이 세다.

출처: Reuters

중국 LLM 현황 정리

https://www.reddit.com/r/LocalLLaMA/comments/1s1gm9z/the_current_state_of_the_chinese_llms_scene/

Reddit에 중국 LLM 생태계를 정리한 글이 올라왔다. 주요 플레이어들 정리:

ByteDance: Doubao (dola-seed)가 현재 중국 내 마켓쉐어 1위
Alibaba: Qwen 시리즈, 오픈소스 기여도가 높음
DeepSeek: 가성비와 성능으로 글로벌 커뮤니티에서 인기
Baidu: ERNIE 시리즈, 자체 생태계 구축

중국은 데이터 접근성, 정부 지원, 그리고 무엇보다 "실제로 동작하는 제품"을 빠르게 내놓는 실행력이 강하다. 우리가 게임 개발할 때도 중국 스튜디오들의 출시 속도 보면 기가 막힌다. 그 속도감이 AI 쪽에서도 그대로 나오는 느낌.

출처: Reddit r/LocalLLaMA

Andrej Karpathy의 자율 AI 연구 에이전트, 2일 만에 700개 실험 수행

https://fortune.com/2026/03/17/andrej-karpathy-loop-autonomous-ai-agents-future/

Karpathy가 만든 자율 AI 연구 에이전트가 2일 동안 700개의 실험을 돌렸다. 인간 연구자가 했으면 몇 주 걸릴 일이다.

이게 중요한 이유는 AI가 AI를 개선하는 루프가 현실화되고 있다는 거다. 코드 작성, 실험 설계, 결과 분석, 다음 실험 계획까지 전부 자동화되는 구조다.

게임 개발로 치면, 밸런스 패치 테스트를 AI가 24시간 돌리면서 최적의 수치를 찾아주는 거랑 비슷하다. 생각만 해도 무섭고 설레고.

출처: Fortune

⚠️ 보안

Litellm 1.82.7, 1.82.8 PyPI 패키지 해킹당함 - 업데이트 금지

https://www.reddit.com/r/LocalLLaMA/comments/1s2c1w4/litellm_1827_and_1828_on_pypi_are_compromised_do/

Litellm이 공급망 공격을 당했다. PyPI에 올라온 1.82.7, 1.82.8 버전이 악성코드가 심어진 상태.

Litellm은 LLM API를 통합해서 쓰는 라이브러리다. OpenAI, Anthropic, 로컬 모델까지 하나의 인터페이스로 쓸 수 있게 해주는 거라 사용자가 많다. 근데 이게 뚫렸다는 건, 수천 명의 API 키가 탈취됐을 수 있다는 뜻이다.

게임 서버도 마찬가지다. npm, pip, Maven 같은 패키지 매니저 무턱대고 믿으면 안 된다. 의존성 잠금(lock file) 꼭 하고, 버전 업그레이드는 changelog 확인하고 천천히 하자. 나도 예전에 테스트 서버 말아먹은 적 있다. 실수 한 번이면 끝이다.

출처: Reddit r/LocalLLaMA

🛠️ 개발자 도구

RYS II - Qwen3.5 27B로 레이어 반복 실험

https://www.reddit.com/r/LocalLLaMA/comments/1s1t5ot/rys_ii_repeated_layers_with_qwen35_27b_and_some/

H100을 굴려가면서 Qwen3.5 27B로 "레이어 반복" 실험을 했다는 글이다. "Universal Language"에 대한 힌트도 있다는데...

레이어 반복이 뭐냐면, 모델의 특정 레이어를 여러 번 순환시켜서 성능을 올리는 기법이다. 모델 크기는 그대로인데 연산량만 늘려서 더 똑똑하게 만드는 거다. 마치 게임 렌더링에서 멀티패스 셰이더 돌리는 느낌?

실험 결과가 꽤 흥미로운 모양이다. 자세한 건 원문 블로그를 읽어보시길. 요약만 봐도 H100을 풀로 굴렸다는 게 느껴진다. 전기세가 얼마나 나왔을까.

출처: Reddit r/LocalLLaMA

SillyTavern 확장으로 게임 NPC에 AI 입히기

https://v.redd.it/9ju2tp2gezqg1

SillyTavern을 백엔드로 써서 게임 NPC에 AI를 입히는 확장을 만들었다. 게임 클라이언트와 SillyTavern 사이에 작은 모드가 브리지 역할을 한다.

Cydonia를 RP 모델로 쓰고 Qwen 3.5를 백엔드로 돌린다고. 거의 모든 게임에 적용 가능하다.

게임 개발자로서 이게 흥미로운 건, AI 로직을 게임 엔진에서 분리했다는 거다. 게임 엔진은 렌더링과 인풋 처리만 하고, AI는 외부 서버에서 돌리는 구조. UE5에서 하려면 HTTP 요청 몇 개면 된다. 물론 레이턴시가 문제지만, 싱글플레이 게임이면 충분히 시도해볼 만하다.

출처: Reddit r/LocalLLaMA

📄 논문 & 프레임워크

EVA - 음성 에이전트 평가 프레임워크

https://huggingface.co/blog/ServiceNow-AI/eva

HuggingFace와 ServiceNow가 음성 AI 에이전트 평가 프레임워크를 공개했다. EVA(Evaluation of Voice Agents).

음성 AI는 텍스트보다 평가가 훨씬 어렵다. 발화 속도, 억양, 중단, 배경 소음, 감정 톤... 변수가 너무 많다. 이걸 체계적으로 평가하겠다는 시도 자체가 의미 있다.

게임 NPC 음성 인터페이스 만들 때도 참고할 만하다. 플레이어가 뭔 말을 했는지 인식하는 것도 중요하지만, 그걸 얼마나 "자연스럽게" 처리했는지 평가하는 기준이 필요하니까.

출처: HuggingFace Blog

오픈소스는 결국 이긴다. 속도가 생명이다. 그리고 pip install은 믿지 마라.

FlashAttention 중국AI 공급망보안 자율AI에이전트 Litellm 게임AI 음성AI 검수실패