AI 업데이트: 중국 오픈소스, 인퍼런스 혁신, 그리고 보안 재앙

이 글은 AI 검수에서 통과하지 못했습니다 (점수: 55/100)

⚠️ 비어있는 섹션이 있다 🚫 죽은 링크: https://www.reuters.com/business/autos-transportation/chinas-open-source-dominance-threatens-us-ai-lead-us-advisory-body-warns-2026-03-23/ (401) 🚫 죽은 링크: https://medium.com/ai-advances/flashattention-4-python-gpu-kernel-blackwall-2b18f51c8b32?sk=59bca93c369143e5f74fb0f86e57e6d0 (403)

링크 오류, 품질 미달 등의 사유로 자동 분류된 글입니다.

🤖 1674 in / 4825 out / 6499 total tokens

오늘자 AI 뉴스에서 가장 눈에 띄는 건 역시 중국 오픈소스의 약진과 FlashAttention-4의 등장이다. 그리고 Litellm 해킹 사건은 식은땀 나게 만들었다.

🔥 핫 토픽

중국 오픈소스가 미국 AI 리드를 위협한다

미국 자문기구가 경고했다. 중국의 오픈소스 전략이 미국의 AI 우위를 흔들고 있다는 거다. 당연한 얘기다. Qwen, DeepSeek, Yi 같은 모델들이 이미 성능에서 GPT급에 육박하거나 넘어서는데, 이걸 무료로 풀면 누가 클로즈드 모델에 돈을 쏟겠나.

왜 중요한가: 오픈소스는 생태계를 잠식한다. 한번 중국 모델로 파이프라인을 구축하면 전환비용이 비싸다. 게임 서버처럼, 한번 아키텍처를 고정하면 바꾸기 하늘의 별 따기다.

출처: Reuters - China's open-source dominance

GPT-5.4 Pro가 미해결 수학 문제를 풀었다

Epoch AI가 확인했다. GPT-5.4 Pro가 Frontier Math의 공개 문제 중 하나를 해결했다는 거다. Ramsey Hypergraphs 문제다.

솔직히 반신반의했다. 근데 Epoch이 검증한 거면 믿을 만하다. 이제 AI가 연구 수준의 문제를 풀기 시작했다는 의미다.

왜 중요한가: 게임 개발로 치면, 이제 AI가 알고리즘 최적화나 수학적 모델링을 스스로 할 수 있는 단계가 왔다. 프로시저럴 생성, 물리 시뮬레이션에 AI가 개입할 날이 멀지 않았다.

출처: Epoch AI - Ramsey Hypergraphs

Karpathy의 자율 에이전트가 2일간 700개 실험을 돌렸다

Andrej Karpathy가 만든 자율 AI 연구 에이전트가 48시간 동안 700개의 실험을 수행했다. 사람이 했으면 몇 주 걸릴 일이다.

이게 진짜 의미하는 건 "AI가 AI를 연구하는" 루프가 시작됐다는 거다. 게임 개발자로서 부러운 건, 반복적인 밸런싱 테스트나 레벨 검증을 이렇게 돌릴 수 있다면 개발 속도가 폭발할 거란 점이다.

출처: Fortune - Karpathy Loop

🛠️ 기술과 최적화

FlashAttention-4: Python으로 작성됐는데 Triton보다 2.7배 빠르다

이건 진짜 충격적이었다. FlashAttention-4가 B200에서 1,613 TFLOPs/s를 달성했는데, 코드가 Python이다. Triton FLOPs보다 2.7배 빠르다.

UE5 C++ 개발자로서 이게 시사하는 게 크다. "Python은 느리다"는 통념이 깨지는 순간이다. GPU 커널 최적화의 패러다임이 바뀌고 있다. 인퍼런스 서버 구축할 때 이제 Python 진영도 무시할 수 없는 옵션이 됐다.

왜 중요한가: 인퍼런스 비용은 게임 서버의 레이턴시와 직결된다. 2.7배 빠르면 동일 하드웨어에서 2.7배 더 많은 요청을 처리할 수 있다. 수익 구조가 바뀐다.

출처: Medium - FlashAttention-4

RYS II: Qwen3.5 27B로 레이어 반복 실험

누군가 H100을 돌려서 흥미로운 실험을 했다. 모델의 레이어를 반복해서 사용하는 기법으로, "Universal Language" 같은 개념을 찾으려는 시도다.

아직은 실험 단계지만, 모델 아키텍처 자체를 해킹하는 접근이 재밌다. 게임 엔진 최적화처럼, 레이어 수를 줄이면서 성능을 유지하면 인퍼런스 비용을 획기적으로 낮출 수 있다.

출처: Reddit - RYS II

🎮 게임 개발자 관점

SillyTavern 확장으로 게임 NPC에 AI 입히기

SillyTavern을 백엔드로 써서 어떤 게임이든 NPC에 AI를 입히는 확장이 나왔다. 브릿지 모드만 만들면 된다고 한다. 현재 Cydonia를 RP 모델로, Qwen 3.5를 백엔드로 쓴다.

이건 바로 써먹을 수 있다. UE5에서 WebSocket이나 HTTP 요청으로 SillyTavern에 연결하면, 복잡한 LLM 인퍼런스 파이프라인 없이도 지능형 NPC를 구현할 수 있다. 물론 레이턴시는 타협해야겠지만.

왜 중요한가: NPC 대화 시스템 만들 때 가장 골치 아픈 게 컨텍스트 관리와 캐릭터 일관성인데, SillyTavern이 이미 다 구현해뒀다. 바퀴를 다시 발명할 필요 없다.

출처: Reddit - SillyTavern NPC Extension

중국 LLM 생태계 정리

Reddit에 중국 LLM 생태계를 정리한 글이 올라왔다. ByteDance의 doubao, Alibaba의 Qwen, DeepSeek 등등.

정리가 잘 돼 있다. 중국 모델 쓸 때 참고하자. 특히 ByteDance가 의외로 강자다. 게임 회사들이 AI에 진심이라는 걸 다시 확인했다.

출처: Reddit - Chinese LLM Scene

⚠️ 보안 경고

Litellm 1.82.7, 1.82.8 PyPI 패키지가 해킹당했다

서플라이체인 공격이다. Litellm의 최신 두 버전이 악성 코드에 감염됐다. 이미 수천 명이 영향을 받았을 거라고 한다.

이런 건 진짜 무섭다. 게임 서버에 LLM 통합할 때 이런 라이브러리를 쓰면, 유저 데이터가 다 털릴 수 있다. 항상 의존성을 잠그고, checksum을 확인하는 습관을 들여야 한다. requirements.txt에 버전 고정하는 거 기본이다.

왜 중요한가: AI 파이프라인도 결국 소프트웨어 공급망의 일부다. 방심하면 털린다.

출처: Reddit - Litellm Compromised

📄 기타

EVA: 음성 AI 에이전트 평가 프레임워크

HuggingFace와 ServiceNow가 음성 에이전트 평가를 위한 EVA 프레임워크를 공개했다.

음성 AI는 게임에서 보이스 채팅, NPC 대화, 접근성 기능 등에 쓰인다. 평가 기준이 표준화되면 품질 비교가 쉬워진다. 나중에 시간 내서 한번 뜯어봐야겠다.

출처: HuggingFace Blog - EVA

중국 오픈소스가 시장을 잠식하는 동안, 인퍼런스 최적화는 Python으로 역습하고 있다. 그리고 보안은 언제나 발목을 잡는다.

AI LLM FlashAttention 보안 중국AI 게임개발 인퍼런스 검수실패

← 이전 글

AI 업데이트: 중국 오픈소스 AI의 위협, FlashAttention-4, 그리고 공급망 해킹

다음 글 →

AI 업데이트: GPT-5.4, 중국 오픈소스, 그리고 공급망 해킹