AI 업데이트: 중국 오픈소스, FlashAttention-4, 그리고 보안 이슈

이 글은 AI 검수에서 통과하지 못했습니다 (점수: 55/100)

⚠️ 비어있는 섹션이 있다 🚫 죽은 링크: https://www.reuters.com/business/autos-transportation/chinas-open-source-dominance-threatens-us-ai-lead-us-advisory-body-warns-2026-03-23/ (401) 🚫 죽은 링크: https://medium.com/ai-advances/flashattention-4-python-gpu-kernel-blackwell-2b18f51c8b32?sk=59bca93c369143e5f74fb0f86e57e6d0 (403)

링크 오류, 품질 미달 등의 사유로 자동 분류된 글입니다.

🤖 1674 in / 4643 out / 6317 total tokens

오늘자 AI 소식 핵심만 쏙 뽑았다.

🔥 핫 토픽

GPT-5.4 Pro, Frontier Math 공개 문제 해결

Epoch AI가 확인한 바에 따르면 GPT-5.4 Pro가 Ramsey Hypergraphs 관련 미해결 수학 문제를 풀었다. Frontier Math 벤치마크가 나오고 처음으로 공개 문제가 해결된 셈이다. 물론 이게 "진짜" 수학적 통찰인지 패턴 매칭인지는 두고 봐야겠지만, 어쨌든 상징적 의미는 크다.

왜 중요한가: 벤치마크 점수가 아니라 실제 미해결 문제를 풀었다는 게 포인트다. AI가 '창발적' 능력을 보여주는 건지, 아니면 학습 데이터에 우연히 포함됐는지 검증이 필요하다.

출처: Epoch AI

Andrej Karpathy의 자율 AI 에이전트, 2일 만에 700개 실험 수행

Karpathy가 만든 Loop라는 자율 연구 에이전트가 이틀 동안 700개의 실험을 돌렸다. 사람이 했으면 몇 주 걸릴 작업을 주말 동안 처리한 셈. 코드 작성, 실행, 결과 분석, 다음 실험 설계까지 전부 자동화.

왜 중요한가: 게임 개발자로서 자동화된 빌드/테스트 파이프라인의 중요성을 아는데, 이걸 연구 단계까지 확장한 거다. 앞으로는 "AI한테 맡기고 자러가면 아침에 결과가 나와 있다"가 일상이 될 수도.

출처: Fortune

📰 뉴스

미국 자문기구: "중국 오픈소스 AI가 미국 리더십 위협"

미국 자문기구가 중국의 오픈소스 AI 전략이 미국의 AI 패권을 위협한다고 경고했다. Qwen, DeepSeek 같은 모델들이 글로벌 개발자 생태계를 장악하고 있다는 우려다.

솔직히 말하면, 이미 r/LocalLLaMA만 봐도 중국 모델 얘기가 절반 이상이다. ByteDance의 Doubao, Alibaba의 Qwen, DeepSeek... 실제 성능도 GPT 클래스에 근접하거나 넘는다. 정치적 논란 떠나서 기술적으로는 이미 경쟁력 있다는 게 현실.

출처: Reuters

중국 LLM 생태계 현황 정리

Reddit에 중국 LLM 생태계를 정리한 글이 올라왔다. ByteDance(Doubao), Alibaba(Qwen), DeepSeek, Baidu, Tencent 등 주요 플레이어들의 현황과 각 모델의 특징을 분석.

왜 중요한가: 한국 개발자 입장에서는 중국 모델이 북미 모델보다 접근성이나 라이선스 면에서 유리할 때가 많다. 특히 상업적 사용이 자유로운 오픈소스 모델들은 사이드 프로젝트에 바로 써먹을 수 있다.

출처: Reddit r/LocalLLaMA

⚠️ 보안 경고

LiteLLM 1.82.7, 1.82.8 PyPI 패키지 해킹 당함

LiteLLM의 최신 버전 두 개가 공급망 공격을 당했다. PyPI에 올라온 패키지에 악성코드가 포함되어 있었다. 이미 수천 명이 영향을 받았을 것으로 추정.

이건 진짜 조심해야 한다. LiteLLM은 LLM API 라우팅에 거의 표준처럼 쓰이는 라이브러리다. UE5 프로젝트에서도 서버 사이드에서 많이 쓰는데, 의존성 주입 공격은 방화벽으로도 막기 힘들다.

대응: 1.82.6 이하로 다운그레이드하거나, 패키지를 재설치하기 전에 체크섬을 확인하라.

출처: Reddit r/LocalLLaMA

🛠️ 개발자 도구

FlashAttention-4: Triton 대비 2.7배 빠른 Python 구현

FlashAttention-4가 B200에서 1,613 TFLOPs/s를 달성했다. 핵심은 순수 Python으로 작성됐다는 것. Triton 기반 구현보다 2.7배 빠르다.

성능 최적화에 진심인 개발자로서 흥미로운 포인트:

Python만으로 GPU 커널을 작성할 수 있게 됐다
CUDA 직접 짜는 거보다 생산성이 월등히 좋다
인퍼런스 서버 구축할 때 TCO 개선 효과가 클 것

게임 서버처럼 실시간 응답이 중요한 환경에서는 어텐션 연산이 병목인 경우가 많은데, 이거 도입하면 지연 시간을 확 줄일 수 있겠다.

출처: Medium

SillyTavern 확장: 게임 NPC에 AI 생명 불어넣기

SillyTavern을 백엔드로 사용해서 게임 NPC를 AI로 구동하는 확장이 나왔다. 게임 쪽에는 작은 브리지 모드만 있으면 되고, 실제 LLM 추론은 SillyTavern이 담당한다.

UE5 개발자로서 바로 떠오르는 생각:

언리얼 플러그인으로 브리지만 만들면 된다
로컬 LLM(Qwen 3.5 등) 쓰면 API 비용 0원
NPC 대화뿐 아니라 퀘스트 생성, 동적 스토리텔링까지 가능

사이드 프로젝트로 한번 만들어봐야겠다. HTTP 소켓 연결은 언리얼에서 기본으로 지원하니까 어렵지 않을 것.

출처: Reddit r/LocalLLaMA

🔬 연구

RYS II: Qwen3.5 27B로 레이어 반복 실험

H100을 풀가동해서 Qwen3.5 27B로 레이어 반복 실험을 돌린 결과다. 'Universal Language'에 대한 힌트도 포함되어 있다고.

아직 블로그 글이 너무 길어서 다 못 읽었는데(작성자도 인정함), 핵심은 모델 구조를 비틀어서 성능 향상을 꾀하는 실험 같다. 일반적인 파인튜닝이나 RAG가 아니라 아키텍처 레벨에서의 최적화 접근.

출처: Reddit r/LocalLLaMA

EVA: 음성 에이전트 평가 프레임워크

HuggingFace와 ServiceNow가 음성 AI 에이전트 평가를 위한 EVA 프레임워크를 공개했다. TTS, ASR, 대화 능력까지 통합적으로 평가할 수 있다.

왜 중요한가: 게임 NPC에 음성 AI를 붙이려면 TTS 품질, 응답 속도, 대화 자연스러움을 다 따져야 하는데, 이걸 체계적으로 벤치마킹할 도구가 없었다. EVA가 이 갭을 메워줄 수 있을 것.

출처: HuggingFace Blog

오늘의 한 줄: 중국 모델 쓸지 말지는 선택의 문제지만, LiteLLM 업데이트는 당분간 멈춰라.

FlashAttention LiteLLM 중국LLM GPT-5 보안 NPC AI SillyTavern 검수실패

← 이전 글

AI 업데이트: GPT-5.4, 중국 오픈소스, 그리고 공급망 해킹

다음 글 →

AI 업데이트: 중국 오픈소스의 약진과 FlashAttention-4, 그리고 공급망 공격