AI 업데이트: 에르되시 문제 해결, RTX 5090 로컬 LLM 혁명, 안전성 평가 도구

🤖 1459 in / 3998 out / 5457 total tokens

🔥 핫 토픽

ChatGPT로 60년된 에르되시 문제를 푼 아마추어 수학자

원문: Scientific American - Amateur armed with ChatGPT vibe maths a 60-year-old problem

에르되시 문제(Erdős problem)는 전설적인 수학자 폴 에르되시가 제안한 미해결 문제들이다. 이번에 아마추어가 ChatGPT를 활용해 60년간 풀리지 않았던 문제 중 하나를 해결했다는 소식이 해커뉴스에서 화제다. "Vibe maths"라는 표현이 재밌는데, 코딩의 vibe coding처럼 수학에서도 AI와 함께 직관적으로 문제에 접근하는 방식을 의미한다.

왜 이게 중요하냐면, AI가 이제 순수 수학 같은 심층 영역에서도 실질적인 도구로 쓰이기 시작했다는 거다. 기존에는 코딩, 글쓰기 같은 응용 분야에서만 AI가 쓰인다고 생각했지만, 이번 사례는 AI의 문제 해결 범위가 훨씬 넓다는 걸 보여준다. 특히 전문 수학자가 아닌 아마추어가 해결했다는 점에서, AI가 지식의 민주화를 가져오고 있다는 주장에 힘을 실어준다.

게임 개발자 관점에서 보면, 이건 AI를 "생각 파트너"로 쓰는 방식의 극단적 예시다. 우리도 복잡한 알고리즘 최적화나 수학적 모델링이 필요할 때 LLM과 토론하면서 해결책을 찾을 수 있다. 물론 LLM이 수학적 증명을 직접 하는 건 아니고, 아이디어를 던지고 검증하는 과정에서 인간과 협업하는 형태다. UE5에서 렌더링 수학이나 물리 시뮬레이션 최적화할 때 이런 접근이 충분히 가능하다.

다만 회의적인 시각도 있다. "진짜 새로운 증명인가?" "LLM 없이도 풀 수 있지 않았을까?" 같은 질문들이다. 하지만 결과적으로 60년간 안 풀린 문제가 풀렸다는 게 핵심이다. 도구가 무엇이든 간에.

출처: Scientific American

📰 뉴스

RTX 5090에서 Qwen3.6-27B가 80 TPS, 218K 컨텍스트로 돈다

원문: Reddit r/LocalLLaMA - Qwen3.6-27B at ~80 tps with 218k context window

RTX 5090 한 장으로 Qwen3.6-27B를 80 TPS(texts per second) 속도에 218K 컨텍스트 윈도우로 돌렸다는 벤치마크 결과다. vLLM 0.19를 서빙 엔진으로 사용했고, NVFP4 양자화와 MTP(Multi-Token Prediction)를 적용한 버전이다.

이 수치가 얼마나 미친 건지 감이 안 올 수 있다. 27B 파라미터 모델을 218K 토큰 컨텍스트로 돌린다는 건, 대략 30만 단어 정도의 텍스트를 한 번에 처리할 수 있다는 뜻이다. 그리고 80 TPS면 실시간 애플리케이션에서 충분히 쓸 수 있는 속도다. 예전에는 이 정도 모델을 이런 속도로 돌리려면 서버급 GPU 여러 장이 필요했다.

NVFP4가 핵심인데, 이건 NVIDIA의 새로운 4-bit 부동소수점 포맷이다. 기존 FP8에서 한 단계 더 내려간 거라 정밀도 손실이 있을 수 있지만, 실제 사용에는 큰 문제가 없다는 게 증명되고 있다. MTP(Multi-Token Prediction)는 한 번의 추론으로 여러 토큰을 예측하는 기법이라 속도 향상에 기여한다.

게임 개발에 적용해보면, 이제 로컬에서 돌아가는 NPC AI가 현실적으로 가능해진다. 27B 모델이면 충분히 복잡한 대화와 상황 판단을 할 수 있는 수준이다. 서버 비용 없이, 오프라인에서도 작동하고, 218K 컨텍스트면 게임 내 월드 히스토리 전부를 기억하게 할 수도 있다. 언리얼 엔진에 vLLM 클라이언트 붙이는 상상을 해본다.

앞선 에르되시 문제 해결과도 연결되는 부분이 있다. AI의 성능이 올라가고 접근성이 좋아질수록, "아마추어"도 전문가 영역에 침범할 수 있다. 로컬 LLM이 이 정도 성능이면, 클라우드 API 없이도 강력한 AI 도구를 쓸 수 있는 환경이 왔다.

출처: Reddit r/LocalLLaMA

⭐ 오픈소스

LLM-Safety-Evaluation-Toolkit: LLM 안전성 평가 프레임워크

원문: GitHub - mufid0/LLM-Safety-Evaluation-Toolkit

LLM의 안전성을 평가하는 오픈소스 툴킷이다. 120개 이상의 프롬프트로 구성된 하이브리드 데이터셋, 편향(bias) 탐지, 적대적 테스트(adversarial testing), 멀티 모델 벤치마킹을 지원한다.

이런 도구가 왜 필요한지 체감하려면, LLM을 실제 서비스에 붙여봐야 한다. 게임 내 챗봇이나 NPC 대화 시스템을 만들 때, 플레이어가 어떤 입력을 넣을지 모른다. 욕설, 혐오 발얼, 시스템 해킹 시도, 성적 콘텐츠 생성 요구 등등. 이런 걸 사전에 필터링하고 모델의 안전한 응답을 보장하려면 체계적인 테스트가 필요하다.

편향 탐지는 특히 중요하다. 게임이 글로벌 서비스되면 다양한 문화권의 플레이어가 접속한다. 특정 인종, 성별, 종교에 대해 모델이 편향된 응답을 하면 큰 문제가 된다. 이 툴킷은 이런 편향을 자동으로 찾아준다. 적대적 테스트는 모델을 의도적으로 공격하는 입력을 넣어서 취약점을 찾는 과정이다. 프롬프트 인젝션이나 탈옥(jailbreak) 시도를 자동화해서 테스트할 수 있다.

앞서 언급한 Qwen3.6-27B 같은 강력한 로컬 모델이 나오면서, 더 많은 개발자가 LLM을 자체 서비스에 통합할 거다. 그런데 성능만큼 안전성도 중요하다. 특히 게임처럼 미성년자도 접근하는 환경에서는 더더욱. 이 툴킷이 완벽하진 않겠지만, 시작점으로는 괜찮아 보인다.

120개 프롬프트가 적어 보일 수 있는데, 이건 핵심 엣지 케이스들을 모아둔 거다. 실제로는 이걸 기반으로 자체 시나리오를 추가해서 사용하게 될 거다. 게임 개발자라면 게임 내 상황에 맞는 안전성 테스트 케이스를 추가로 만들어야 한다.

출처: GitHub - mufid0/LLM-Safety-Evaluation-Toolkit

💭 개인적 코멘트

세 뉴스를 묶어보면 한 가지 흐름이 보인다. AI가 점점 더 "강력해지면서도 접근 가능해지고 있다"는 거다.

에르되시 문제 해결은 AI의 인텔리전스가 어디까지 갈 수 있는지 보여주고, RTX 5090 벤치마크는 그 성능을 개인이 로컬에서 쓸 수 있게 됐다는 걸 보여준다. 그리고 안전성 평가 툴킷은 그 강력한 도구를 책임감 있게 쓰기 위한 인프라가 같이 성장하고 있다는 증거다.

게임 개발자로서 이 타이밍이 흥미로운 이유는, AI NPC가 드디어 현실적인 옵션이 되고 있다는 거다. 27B 모델을 80 TPS로 로컬 돌릴 수 있고, 안전성 테스트 도구도 있고, 컨텍스트도 넉넉하다. 남은 건 게임 엔진과의 통합인데, 이건 시간 문제다.

AI의 성능이 올라가고 비용이 내려가고 있다. 이제 문제는 "할 수 있는가"가 아니라 "무엇을 할 것인가"다.

LLM 로컬AI RTX5090 안전성 수학 vibe-maths vLLM 오픈소스