AI 업데이트: GPT-5.4 수학 난제 해결, Karpathy 자율 에이전트, LiteLLM 해킹 사태

이 글은 AI 검수에서 통과하지 못했습니다 (점수: 55/100)

⚠️ 비어있는 섹션이 있다 🚫 죽은 링크: https://www.reuters.com/business/autos-transportation/chinas-open-source-dominance-threatens-us-ai-lead-us-advisory-body-warns-2026-03-23/ (401) 🚫 죽은 링크: https://medium.com/ai-advances/flashattention-4-python-gpu-kernel-blackwell-2b18f51c8b32 (403)

링크 오류, 품질 미달 등의 사유로 자동 분류된 글입니다.

🤖 1835 in / 5155 out / 6990 total tokens

오늘자 AI 소식은 "와 이게 된다고?"급과 "망했네"급이 반반이다. GPT-5.4가 수학 난제를 풀었고, Karpathy는 2일 만에 700개 실험을 돌리는 자율 에이전트를 공개했다. 반면 LiteLLM은 PyPI에서 해킹당했다. 조심하자.

🔥 핫 토픽

GPT-5.4 Pro가 수학 난제를 풀었다

Epoch AI가 확인한 바에 따르면 GPT-5.4 Pro가 Ramsey Hypergraphs 관련 미해결 수학 문제를 풀었다고 한다. 이게 사실이라면 꽤 큰일이다. 수학 연구자들이 AI를 협업 도구가 아니라 경쟁자로 느낄 시점이 온 건가. 물론 검증이 필요하지만, frontier math 벤치마크가 "풀 수 없는 문제"였다는 걸 감안하면 의미가 크다.

게임 개발하면서 수학 쓸 일이 많은데, 나중엔 "AI야 이 레이캐스팅 최적화 좀 해줘" 하면 끝나는 세상 오려나.

출처: Epoch AI

Andrej Karpathy의 자율 AI 연구 에이전트가 2일 만에 700개 실험 수행

Karpathy가 만든 'Loop'라는 자율 AI 연구 에이전트가 48시간 동안 700개의 실험을 돌렸다. 혼자서 연구실 하나 몫을 하는 셈이다. 코드 작성 → 실험 → 결과 분석 → 다음 실험 설계 사이클을 완전 자동화했다는 게 핵심.

이건 게임 서버 최적화할 때도 응용할 수 있겠다. 프로파일링 데이터 던져주면 "이 병목 지점 여기요, 이렇게 고치세요"까지 자동으로 해주는 에이전트. 얼른 만들고 싶어지네.

출처: Fortune

LiteLLM 1.82.7, 1.82.8 PyPI 패키지 해킹 당함

LiteLLM이 공급망 공격을 당했다. PyPI에 올라온 1.82.7과 1.82.8 버전에 악성 코드가 포함되어 있었다. 수천 명이 영향을 받았을 것으로 추정된다. 당장 업데이트 중단하고, 이미 설치했다면 시스템 점검해라.

이런 거 보면 npm이든 PyPI든 의존성 관리가 참 무섭다. UE5 플러그인도 비슷한 위험 있지 않나 싶은데, 다행히 C++ 생태계는 이런 일이 드물다. 그래도 항상 의심하자.

출처: Reddit r/LocalLLaMA

📰 뉴스

중국 오픈소스 AI, 미국 리드를 위협한다

미국 자문기구가 중국의 오픈소스 AI 지배력이 미국의 AI 우위를 위협한다고 경고했다. 중국이 오픈소스 전략으로 시장을 장악하고 있다는 분석이다. 사실 Qwen, DeepSeek 보면서 이미 느낀 바 있지만, 공식적으로 인정한 셈.

오픈소스는 막을 수 없다. 미국이 규제할수록 중국은 더 공개적으로 밀어붙일 거고. 결국 개발자 입장에선 선택지가 늘어나니 좋은 일이다.

출처: Reuters via Reddit

GPU 가격이 드디어 내려가나?

r/LocalLLaMA에 올라온 가격 차트를 보면 GPU 가격이 하락하는 추세다. H100 수요가 어느 정도 충족된 건지, 아니면 중국산 대안들이 영향을 준 건지. 정확한 원인은 모르겠지만 로컬 LLM 사용자들에겐 반가운 소식.

3060 12GB로 버티고 있는 나한테도 희소식. 4090 가격이 떨어지면 진지하게 고려해봐야지.

출처: Reddit r/LocalLLaMA

AI Hype Index: AI가 전쟁터로

MIT Tech Review의 AI Hype Index에 따르면 AI가 군사 분야로 확장 중이다. Anthropic은 펜타곤과 갈등을 빚었고, OpenAI는 "기회주의적이고 조잡한" 딜을 맺었다는 평가. Claude는 윤리적 문제로 군사 협력을 꺼렸던 모양인데, OpenAI는 그냥 들어갔다.

게임 개발자로서 NPC AI 만들 때도 "이걸 군사용으로 악용할 수 있나" 같은 고민을 해야 할 시대가 올지도 모른다. 지금은 아니지만.

출처: MIT Tech Review

🛠️ 기술 & 오픈소스

FlashAttention-4: Triton 대비 2.7배 빠르다

FlashAttention-4가 나왔다. B200에서 BF16 포워드 기준 1,613 TFLOPs/s, Triton 대비 2.7배 빠르다고 한다. 그리고 Python으로 작성됐다는 게 포인트. 커널 최적화가 이제 C++/CUDA 몰라도 가능해지는 분위기다.

추론 최적화 관점에서 중요하다. 게임 내에서 실시간으로 LLM 돌릴 때 어텐션 병목이 얼마나 큰데. 이게 개선되면 NPC 대화 지연 시간이 확 줄어들 거다.

출처: Medium

RYS II: Qwen3.5 27B로 반복 레이어 실험

H100을 굴려서 Qwen3.5 27B 기반으로 레이어 반복 실험을 했다는 글. "Universal Language" 같은 힌트도 있다는데, 아직 읽어보진 못했다. 레이어 반복이 모델 성능에 미치는 영향을 연구한 것 같은데, 로컬 LLM 튜닝하는 사람들에겐 꽤 유용할 듯.

모델 구조 자체를 건드는 연구는 항상 흥미롭다. 단순히 파인튜닝만 하는 게 아니라 아키텍처 레벨에서 최적화하려는 시도들.

출처: Reddit r/LocalLLaMA

SillyTavern 확장으로 게임 NPC 살리기

SillyTavern을 백엔드로 써서 모든 게임에 NPC를 구현하는 확장이 나왔다. 게임과 SillyTavern 사이에 작은 모드만 연결하면 된다고. 현재 Cydonia를 RP 모델로, Qwen 3.5를 백엔드로 사용 중이라고.

이거 내가 계속 고민하던 건데 누가 먼저 만들었네. UE5 플러그인으로 비슷한 거 만들어보고 싶다. 게임 내 NPC가 자연스럽게 대화하고, 기억하고, 성장하는 시스템. 서버 아키텍처 고민하느라 머리 아픈데, 클라이언트 사이드에서 돌리는 것도 방법일 수 있겠다.

출처: Reddit r/LocalLLaMA

EVA: 음성 에이전트 평가 프레임워크

HuggingFace에서 ServiceNow와 함께 음성 에이전트 평가 프레임워크 EVA를 공개했다. 음성 AI 평가가 텍스트보다 훨씬 어려운데, 이걸 체계화하려는 시도.

게임에서 보이스 챗봇 만들 때 참고할 만하다. 그냥 "잘 작동하네"가 아니라 실제로 얼마나 잘하는지 측정할 수 있어야 하니까.

출처: HuggingFace Blog

🌏 중국 LLM 현황

중국 LLM 생태계 정리

Reddit에 중국 LLM 현황을 정리한 글이 올라왔다. ByteDance의 dola-seed(aka doubao)가 현재 최고 성능이라고. 그 외에도 Alibaba, Baidu, Tencent 등 빅테크들이 각자 모델을 굴리고 있다.

요즘 Qwen 쓰면서 느끼는 건데, 중국 모델들이 가성비가 진짜 좋다. 성능은 GPT급인데 가격은 훨씬 싸고. 서버 비용 아끼려는 게임 개발자 입장에선 진짜 감사할 따름.

출처: Reddit r/LocalLLaMA

오늘의 교훈: PyPI 업데이트는 항상 의심하자. 그리고 Karpathy가 만드는 건 항상 확인하자.

GPT-5.4 Karpathy LiteLLM FlashAttention Chinese LLM GPU prices supply chain attack 검수실패

← 이전 글

AI 업데이트: FlashAttention-4, LiteLLM 공급망 공격, 그리고 중국 오픈소스의 약진

다음 글 →

AI 업데이트: 보안 이슈, 추론 성능, 그리고 중국의 오픈소스 약진