AI 업데이트: 중국 오픈소스, 공급망 해킹, 그리고 1613 TFLOPs의 Python

이 글은 AI 검수에서 통과하지 못했습니다 (점수: 55/100)

⚠️ 비어있는 섹션이 있다 🚫 죽은 링크: https://www.reuters.com/business/autos-transportation/chinas-open-source-dominance-threatens-us-ai-lead-us-advisory-body-warns-2026-03-23/ (401) 🚫 죽은 링크: https://medium.com/ai-advances/flashattention-4-python-gpu-kernel-blackwell-2b18f51c8b32?sk=59bca93c369143e5f74fb0f86e57e6d0 (403)

링크 오류, 품질 미달 등의 사유로 자동 분류된 글입니다.

🤖 1674 in / 4805 out / 6479 total tokens

오늘자 AI 소식을 정리한다. 미국이 중국 오픈소스를 두려워하는 시점에, PyPI 패키지는 뚫리고 있고, FlashAttention은 Python으로 1600 TFLOPs를 찍었다. 참 흥미로운 시대다.

🔥 핫 토픽

중국 오픈소스 AI가 미국 리드를 위협한다 - 미국 자문기구 경고

미국의 어떤 자문기구가 "중국의 오픈소스 전략이 미국의 AI 우위를 위협한다"고 경고했다. 재밌는 건 미국이 오픈소스를 막으려는 움직임을 보이면, 그게 오히려 자신들의 생태계를 옥죄는 셈이 된다는 거다. 요즘 중국 모델들 - Qwen, DeepSeek, Yi 계열 - 성능이 진짜 무섭다. 로컬 LLM 돌리는 입장에서는 선택지가 넓어져서 좋지만, 지정학적 관점에서는 묘한 긴장감이 흐른다.

왜 중요한가: 게임 개발자 입장에서도 모델 선택의 폭이 넓어진 건 반가운 일. 라이선스만 잘 확인하면 된다.

출처: Reuters

GPT-5.4 Pro, 수학 난제 해결

Epoch AI가 GPT-5.4 Pro가 Frontier Math의 열린 문제 하나를 풀었다고 확인했다. Ramsey Hypergraphs 문제다. AI가 창의적인 문제 해결 능력을 보여주는 또 하나의 사례. 물론 "문제를 풀었다"는 게 어떤 의미인지는 확인해봐야겠지만, 방향성은 명확하다. 추론 능력이 계속 올라가고 있다.

왜 중요한가: 게임 NPC의 문제 해결 AI, 퀘스트 생성, 밸런싱 수학 계산 등에도 파장이 올 수 있다.

출처: Epoch AI

Andrej Karpathy의 자율 AI 연구 에이전트, 2일간 700개 실험 수행

Karpathy의 Loop 프로젝트가 2일 만에 700개의 실험을 돌렸다. 인간 연구자 대비 압도적인 처리량. 자율적으로 가설 세우고, 실험 설계하고, 결과 분석하는 워크플로우가 갖춰지고 있다. 나도 사이드 프로젝트에서 이런 에이전트 써보고 싶다. 연구뿐 아니라 게임 밸런싱 테스트, 버그 재현 시나리오 생성 등에도 응용 가능할 듯.

왜 중요한가: 개발자의 "실행력"이 10x, 100x로 증폭되는 시대가 오고 있다.

출처: Fortune

🛡️ 보안 이슈

Litellm 1.82.7, 1.82.8 PyPI 패키지 해킹됨 - 업데이트 금지

Litellm이 뚫렸다. PyPI에 올라간 1.82.7과 1.82.8 버전이 악성 코드가 심어진 상태. 수천 명이 영향받았을 거라고. 공급망 공격(Supply Chain Attack)인데, 이거 진짜 무섭다. 내가 서버 아키텍처 짤 때 항상 고민하는 게 의존성 보안이다. pip install 한 방에 서버가 뚫리는 세상이다. requirements.txt 고정하고, 해시 검증하고, 최소한의 의존성만 쓰는 습관이 생존에 필수다.

왜 중요한가: AI 인프라 구축할 때 서드파티 패키지 보안은 이제 선택이 아닌 필수.

출처: Reddit r/LocalLLaMA

⚡ 성능 & 최적화

FlashAttention-4: Python으로 작성, 1613 TFLOPs/s 달성

FlashAttention-4가 B200에서 1613 TFLOPs/s를 찍었다. Triton 대비 2.7배 빠르고, 게다가 Python으로 작성됐다. 나 같이 CUDA 직접 짜기 귀찮은 개발자에게는 희소식. Python만으로도 이 정도 성능이 나온다면 커널 최적화의 진입 장벽이 많이 낮아지는 거다. 추론 서버 최적화할 때 FlashAttention은 이제 선택이 아니라 필수가 됐고, 버전업 될수록 더 쓰기 쉬워지는 중.

왜 중요한가: 게임 서버에 LLM 탑재할 때 추론 비용 최적화의 핵심 기술.

출처: Medium

RYS II - Qwen3.5 27B로 레이어 반복 실험

H100을 풀가동해서 Qwen3.5 27B로 레이어 반복 실험을 돌렸다는 글. "Universal Language" 같은 힌트도 있다는데, 아직 읽어보진 못했다. 레이어 반복은 모델 구조 최적화의 흥미로운 방향. 파라미터 수는 줄이면서 성능은 유지하거나 올리는 실험들이다. 로컬 LLM으로 돌리는 입장에서는 모델 크기와 성능의 밸런스가 생존 문제라 관심 갖고 볼 만하다.

출처: Reddit r/LocalLLaMA

🎮 게임 & AI

SillyTavern 확장으로 게임 NPC에 생명 불어넣기

SillyTavern을 백엔드로 써서 게임 NPC를 살아있게 만드는 확장. 게임 클라이언트와 SillyTavern 사이에 작은 모드가 브리지 역할을 한다. Cydonia를 RP 모델로, Qwen 3.5도 쓴다고. 이거 정확히 내가 관심 있는 영역이다. UE5에서 비슷한 거 구현해보려고 삽질 중인데, 아키텍처는 비슷하다. 게임 클라이언트 → 브리지 → LLM 백엔드. 멀티플레이어 게임이면 여기에 서버가 끼어들어야 한다.

왜 중요한가: AI NPC가 게임 개발의 메인스트림으로 편입하는 중.

출처: Reddit r/LocalLLaMA

📊 리서치 & 프레임워크

중국 LLM 생태계 현황 정리

중국 LLM 빅플레이어들을 정리한 글. ByteDance(dola-seed/doubao), Alibaba(Qwen), Baidu, Tencent 등등. 요즘 중국 모델들은 성능도 좋고 라이선스도 관대한 편이라 로컬 사용자들 사이에서 인기가 많다. 특히 Qwen 시리즈는 진짜 잘 만들어져 있다. 다만 중국 모델 쓸 때는 censorship 이슈랑 라이선스 세부 조항은 꼭 확인해야 한다.

출처: Reddit r/LocalLLaMA

EVA - 음성 에이전트 평가 프레임워크

HuggingFace와 ServiceNow가 만든 음성 AI 에이전트 평가 프레임워크. 음성 인터페이스 게임 NPC 만들 때 평가 지표가 필요한데, 이런 게 나와주니 반갑다. 게임에서 음성 AI는 대기 시간(latency)이 진짜 중요한데, EVA가 그런 측면도 평가해주는지는 더 봐야겠다.

출처: HuggingFace Blog

오픈소스는 막을 수 없고, 공급망은 뚫리고 있고, Python은 1600 TFLOPs를 찍는다. 적응하거나 도태되거나.

AI LLM 보안 성능최적화 게임AI FlashAttention 중국AI 오픈소스 검수실패

← 이전 글

AI 업데이트: 서플라이체인 공격 경고, Claude Code 생산성

다음 글 →

AI 업데이트: FlashAttention-4, 중국 오픈소스, 그리고 공급망 해킹