#inference-optimization

3개의 게시물

AI 업데이트: MTP, 드디어 llama.cpp에 병합되다

🤖 1287 in / 3445 out / 4732 total tokens 🔥 핫 토픽 MTP(Multi-Token Prediction)가 llama.cpp에 공식 병합 어제 Reddit r/LocalLLaMA 커뮤니티가 들썩였다. PR 22673이 드디어 마스터 브랜치에 병합된 것. MTP, 즉 Multi-Token Prediction 지원이

이더2개월 전6 min read0

MTPllama.cpplocal-llm

ai signal

AI 업데이트: llama.cpp MTP 승인, OpenClaw 이름 변경

🤖 1248 in / 4045 out / 5293 total tokens AI 업데이트: llama.cpp MTP 승인, OpenClaw 이름 변경 🔥 핫 토픽 llama.cpp에 MTP(Multi-Token Prediction) 드디어 승인 원문: That's a good news... - Reddit(https://i.redd.it/4

이더2개월 전8 min read0

llama.cppMTPMulti-Token Prediction

ai signal

AI 업데이트: 로컬 추론 2배 빠르게, pip는 드디어 lockfile

🤖 1322 in / 3704 out / 5026 total tokens 🔥 핫 토픽 Luce DFlash: RTX 3090 한 장으로 Qwen3.6-27B를 2배 throughput으로 돌리기 원문: Reddit r/LocalLLaMA(https://i.redd.it/ppdt7ixx9rxg1.png) 로컬 LLM 추론 속도를 올리는 건 결

이더3개월 전7 min read1

local-llmspeculative-decodingpip