🤖
1375 in / 6000 out / 7375 total tokens
🔥 핫 토픽
LocalLLaMA 유저가 2.3TB RAM 서버 띄웠다 — Blackwell과 RDMA로 prefill/decode 분리 구상
https://i.redd.it/vf2d4tkimszg1.jpeg
r/LocalLLaMA에서 400+ vCore, 2.3TB RAM을 장착한 워크스테이션 사진이 화제다. 작성자는 NVIDIA Blackwell GPU를 prefill 전용으로 쓰고, RDMA로 호스트 RAM과 직결해 decode를 수행하는 아키텍처를 구상 중이다. prefill(프롬프트 처리)은 연산 집약적이라 GPU가 담당하고, decode(토큰 생성)는 메모리 대역폭이 중요하니 RDMA로 원격 메모리 풀을 쓰겠다는 의도다.
이 구조가 왜 중요하냐면, 현재 로컬 LLM 추론의 병목은 VRAM 용량이다. 모델이 커지면 단일 GPU에 안 들어가니 VRAM 부족이 발생한다. RDMA(Remote Direct Memory Access)를 쓰면 NIC를 통해 원격 노드의 메모리를 로컬처럼 직접 접근할 수 있다. 즉, GPU는 연산만 하고 실제 데이터는 2.3TB RAM 서버에서 가져오는 식이다.
게임 서버 아키텍처에 비유하면, 클라이언트-서버 구조에서 클라이언트(GPU)는 렌더링만 하고 서버(2.3TB RAM)가 게임 상태를 관리하는 것과 비슷하다. UE5에서도 네트워크 리플리케이션 최적화할 때 비슷한 고민을 한다 — 무엇을 로컬에서 처리하고 무엇을 서버에서 가져올지. latency와 bandwidth 트레이드오프를 어떻게 잡을지가 핵심이다.
다만 실제로 이게 성공하려면 PCIe/NVLink 대역폭, RDMA latency, 그리고 Blackwell 드라이버 지원이 전부 맞아떨어져야 한다. 아직 "all that's left is"라며 남은 과제가 있음을 시사한다. 그래도 로컬 LLM 커뮤니티에서 이 수준의 인프라를 개인이 구축한다는 자체가 상징적이다. 클라우드 API 의존 없이 대규모 모델을 돌리려는 시도가 계속 진화하고 있고, 곧 오픈소스 생태계 전체에도 이런 prefill/decode 분리 패턴이 확산될 것이다.
📰 뉴스
Dirtyfrag: 리눅스 커널 LPE(Local Privilege Escalation) 취약점 공개
https://www.openwall.com/lists/oss-security/2026/05/07/8
oss-security 메일링 리스트에 "Dirtyfrag"라는 이름의 유니버설 리눅스 LPE 취약점이 공개됐다. HN에서 560포인트를 받으며 높은 관심을 보이고 있다. LPE는 일반 사용자 권한에서 루트 권한으로 승격할 수 있는 취약점으로, AI 인퍼런스 서버, 컨테이너 환경, 클라우드 인스턴스 모두 영향을 받을 수 있다.
이게 AI 개발자에게 왜 중요하냐면, 로컬 LLM 서버나 finetuning 워크스테이션은 대부분 리눅스다. 앞서 언급한 r/LocalLLaMA 유저의 2.3TB 서버도 리눅스일 가능성이 높다. 멀티테넌트 환경에서 한 사용자가 이 취약점으로 루트를 따면, 같은 서버에서 돌던 다른 사용자의 모델 가중치, API 키, 파인튜닝 데이터가 전부 탈취될 수 있다.
과거 Dirty COW(2016), Dirty Pipe(2022) 같은 리눅스 커널 LPE들이 있었는데, 이름 패턴을 보면 파일 시스템/메모리 관련 단편화(frag) 처리에서 발생한 버그로 보인다. "Universal"이라고 불리는 건 특정 커널 버전이 아니라 넓은 범위에 영향을 미친다는 뜻이다.이런 취약점은 패치가 빨리 나와도 실제 적용이 늦어지는 경우가 많다.
게임 서버 관점에서도 리눅스 커널 취약점은 치명적이다. 전용 서버(dedicated server) 컨테이너가 뚫리면 게임 로직 변조, 치트 배포, 플레이어 데이터 유출로 이어진다. UE5 전용 서버도 리눅스 컨테이너로 배포하는 경우가 많으니 패치 우선순위가 높다. AI 인퍼런스 API를 제공하는 서비스라면 더더욱. 컨테이너 이스케이프까지 이어질 가능성도 배제할 수 없다.
⭐ 오픈소스
Nanoforge — 소형 언어모델 처음부터 만들어보는 실험적 프레임워크
https://github.com/najuaircrack/Nanoforge
GitHub 트렌딩에 올라온 Nanoforge는 BPE 토크나이저부터 트랜스포머 아키텍처까지, 소형 언어모델을 밑바닥부터 구현하는 교육/연구용 프레임워크다. HuggingFace나 PyTorch 고수준 API에 의존하지 않고, 토크나이저(BPE), 모델, 트레이닝 루프를 직접 구현한다고 명시돼 있다.
이게 왜 의미 있냐면, LLM 내부 동작을 진짜로 이해하려면 어느 정도는 바닥부터 만들어봐야 한다. 게임 개발에서도 언리얼의 블루프린트만 쓰다가 C++로 들어가면 엔진 내부가 보이는 것처럼, AI도 transformers 라이브러리의 AutoModelForCausalLM.from_pretrained()만 부르다가 직접 구현해보면 attention, positional encoding, KV cache 같은 개념이 체감된다.블랙박스를 열어보는 경험이라 할 수 있다.
태그에 bpe, bpe-tokenizer, gpt가 있는 걸 보면 GPT 스타일의 디코더-온리 아키텍처를 타겟으로 한다. BPE(Byte Pair Encoding)는 가장 널리 쓰이는 서브워드 토크나이저인데, 이걸 직접 구현해보면 토큰화가 왜 중요하고 어휘 크기가 모델 성능에 어떻게 영향을 미치는지 알게 된다. 특히 한국어 같은 교착어에서 토크나이저 선택이 얼마나 큰 차이를 만드는지도 실험해볼 수 있다.
실무적으로는 당장 대규모 모델 학습에 쓸 순 없겠지만, 연구 프로토타입, edge AI 모델 실험, 그리고 무엇보다 학습 목적으로 가치가 있다. 앞서 언급한 로컬 LLM 인프라 구축 열기와도 맞물린다 — 하드웨어를 모았으면 그 위에서 돌릴 모델도 직접 만들어보고 싶은 거다.모델 아키텍처를 이해하면 앞서 2.3TB 서버에서 prefill/decode를 분리하는 게 왜 합리적인지도 더 잘 와닿을 것이다.
출처: GitHub - najuaircrack/Nanoforge
오늘의 흐름: 로컬 인프라는 극한까지 밀어붙이고, 보안은 커널 단에서 털리는 리스크에 주의해야 하며, 기초부터 다시 배우자는 움직임이 동시에 일어나고 있다.