🤖
1532 in / 6000 out / 7532 total tokens
이번 주 AI 생태계는 로컬 LLM이 에이전트 코딩에 실용적인 수준에 도달했다는 소식과, 빅테크들이 AI를 검색·오피스 생태계에 깊숙이 박아넣는 움직임이 동시에 진행되고 있다.
🔥 핫 토픽: Qwen 3.6 27B + MTP로 2.5배 빠른 로컬 에이전트 코딩
llama.cpp의 MTP(Multi-Token Prediction) 기능을 활용해 Qwen 3.6 27B 모델의 추론 속도를 2.5배 끌어올렸다는 실험 결과가 화제다. 48GB VRAM에서 262k 컨텍스트를 구동하고, OpenAI 및 Anthropic API 엔드포인트와 호환되는 drop-in 대체를 제공한다.
이게 왜 중요하냐면, Claude API나 GPT-4 API에 의존하지 않고도 로컬에서 에이전트 기반 코딩을 할 수 있는 선택지가 생겼다는 거다. Claude Code나 Cursor 같은 도구들이 Anthropic/OpenAI API에 강하게 묶여 있는데, 이런 로컬 대안이 실용적 수준에 도달하면 비용 절감과 데이터 프라이버시 측면에서 게임체인저가 될 수 있다. 특히 기업 환경에서 코드가 외부로 나가면 안 되는 프로젝트에서는 선택지가 크게 넓어진다.
MTP(Multi-Token Prediction)는 한 번의 포워드 패스에서 여러 토큰을 동시에 예측하는 기법이다. 전통적인 자기회귀 방식이 토큰을 하나씩 순차적으로 생성하는 것과 달리, MTP는 병렬로 여러 토큰을 만들어내 추론 속도를 극적으로 높인다. 물론 품질 저하가 있을 수 있지만, 코딩 작업 같은 구조화된 출력에서는 특히 효과적이다. 게임 개발 비유를 하자면, 렌더링에서 한 픽셀씩 그리는 대신 타일 단위로 병렬 그리는 것과 비슷하다.
48GB VRAM에서 262k 컨텍스트라는 건, 대규모 코드베이스 전체를 컨텍스트에 넣고 작업할 수 있다는 의미다. UE5 프로젝트 같은 거대 코드베이스에서도 파일 단위로 쪼개서 넣지 않고 한 번에 처리할 수 있는 가능성이 열린다. 다만 turboquants PR이 아직 불안정하다고 하니, 실제 프로덕션에 쓰려면 좀 더 기다려야 할 것 같다.
Anthropic API 호환 엔드포인트를 제공한다는 점이 특히 흥미롭다. Claude Code나 다른 Anthropic API 기반 도구를 쓰다가 로컬 모델로 전환하고 싶을 때, 클라이언트 코드 수정 없이 엔드포인트만 바꾸면 된다. 게임 서버 개발에서 말하는 "인터페이스는 같고 구현만 갈아끼운다"는 원칙과 정확히 일치하는 접근이다. 추상화 계층을 잘 설계해두면 백엔드를 클라우드에서 로컬로, 혹은 그 반대로 자유롭게 오갈 수 있다.
출처: r/LocalLLaMA
📰 Google AI 검색, Reddit 인용으로 커뮤니티 피드백 큐레이션
Google이 AI Search 모드를 업데이트해서 Reddit 게시물을 직접 인용하기 시작했다. 사용자 검색 쿼리에 대해 실제 사람들의 피드백을 AI 요약 형태로 제공하는 기능이다.
이게 Claude 사용자에게 왜 중요하냐면, 정보 검색 파이프라인의 구도가 바뀌고 있기 때문이다. Claude도 웹 검색 기능을 제공하지만, 커뮤니티 피드백을 구조화해서 보여준다는 측면에서는 Google이 한 발 앞서나가는 느낌이다. 개발자가 "UE5 GC 크래시 해결법" 같은 걸 검색할 때, 공식 문서보다 Reddit의 실전 경험이 더 유용한 경우가 많은데, 이걸 AI가 자동으로 큐레이션해주는 건 분명 편리하다.
기술적으로 보면, 이건 RAG(Retrieval-Augmented Generation)의 변형이다. 일반 웹 문서가 아니라 Reddit 같은 UGC 플랫폼을 검색 소스로 사용하는 RAG 파이프라인을 구축한 것. Reddit의 구조화된 데이터(스레드, 댓글, upvote)를 활용하면 단순 키워드 매칭을 넘어 "신뢰도 높은 답변"을 필터링할 수 있다. 내가 사이드프로젝트에서 RAG 파이프라인을 구축할 때 느낀 건데, 소스의 품질이 최종 출력의 품질을 결정한다. Google이 Reddit을 선택한 건 품질 관리 측면에서 합리적이다.
다만 우려도 있다. Reddit 인용이 많아지면 AI 검색 결과가 Reddit 내 편향에 영향을 받을 수 있다. "A 프레임워크가 B보다 낫다"는 Reddit의 인기 의견이 계속 강화되는 echo chamber 현상이 생길 수 있다. Claude 같은 모델이 다양한 소스에서 균형 잡힌 답변을 제공하려는 철학과는 대비되는 부분이다. 검색 결과의 다양성이 줄어들면 장기적으로 정보 생태계에 악영향을 줄 수 있다.
앞서 언급한 로컬 LLM 발전과 맞물려 생각해보면, 검색 증강 AI의 미래는 "어떤 소스를 참조하느냐"가 핵심 경쟁력이 될 것 같다. Claude는 학술 논문과 공식 문서에 강하고, Google은 UGC와 커뮤니티 데이터에 강하다. 개발자 입장에서는 용도에 따라 선택적으로 활용하는 게 맞다. 기술적 의사결정에는 공식 스펙이 필요하고, 실전 디버깅에는 커뮤니티 경험이 필요하니까.
출처: The Verge
📰 Microsoft, Teams 담당에 LinkedIn 출신 임명하며 AI 통합 가속
Microsoft가 LinkedIn CEO였던 Ryan Roslansky에게 Office와 Teams, 그리고 일부 Windows 엔지니어링까지 맡기는 조직 개편을 단행했다. Copilot이 Office 제품군 전반에 스며드는 시점에서, 이 인사는 AI 기반 생산성 도구의 방향성을 가리킨다.
Copilot은 GPT-4 기반이지만, 기업용 AI 어시스턴트 시장에서 Claude와 직접 경쟁하는 포지션이다. Microsoft가 Office 생태계에 Copilot을 깊게 통합하는 건, Claude가 Artifacts나 Claude Code로 파고드는 개발자 생태계와 다른 각도에서 같은 시장을 노리는 것. Teams에 AI가 더 깊이 들어간다는 건, 회의 요약, 액션 아이템 추출, 실시간 번역 같은 기능이 Claude의 워크플로우 자동화와 경쟁하게 된다는 뜻이다.
개발자 관점에서 주목할 건, 이런 빅테크의 AI 통합이 API 경제에 미치는 영향이다. Teams Copilot이 활성화되면 조직 내에서 "AI를 쓴다"는 게 자연스러워지고, 그러면 개발자들이 Claude API로 커스텀 워크플로우를 만드는 것도 더 쉽게 제안할 수 있다. AI의 조직 내 정상화가 외부 API 채택의 문턱을 낮추는 효과. 게임으로 치면, 캐주얼 게임이 시장을 키우면 하드코어 게임도 덩달아 수혜를 보는 것과 비슷하다.
LinkedIn 출신이 맡는다는 것도 시사하는 바가 크다. LinkedIn은 프로페셔널 네트워크 데이터를 보유하고 있고, 이 데이터를 Copilot이 활용할 수 있게 되면 "회의 참석자의 배경 정보 자동 요약" 같은 기능이 가능해진다. 게임 개발 쪽에서 비유하자면, 플레이어 행동 데이터를 AI가 분석해서 개인화된 경험을 제공하는 것과 비슷한 맥락이다. 데이터 + AI의 결합이 핵심이고, Claude도 이런 방향으로 갈 수밖에 없다.
Roslansky가 Windows 엔지니어링까지 일부 챙기게 된 것도 흥미롭다. OS 레벨에서 AI를 통합하려는 의도가 엿보인다. Claude 같은 외부 AI가 OS 레벨에서 통합되려면 시스템 권한이 필요한데, Microsoft는 자사 AI를 OS에 직접 박아넣는 우회로를 선택한 셈이다. 경쟁이 심화될수록 개발자는 "플랫폼 종속 AI" vs "독립 AI API" 사이에서 선택해야 하는 상황이 올 것 같다. UE5 개발에서 Epic 생태계에 묶이는 것과 비슷한 고민이다.
출처: The Verge
로컬 LLM이 실용화되고 빅테크가 AI를 플랫폼에 박아넣는 사이, 개발자의 선택지는 넓어지고 특정 벤더에 대한 의존도는 줄어들고 있다. 중요한 건 어떤 AI를 쓰느냐가 아니라, 언제든 갈아탈 수 있는 아키텍처를 유지하느냐다.