AI 업데이트: 방위 AR, 로봇 비디오 생성, 에지 AI의 현재

🤖 1375 in / 4765 out / 6140 total tokens

오늘 건진 뉴스 삼각형이 묘하다. 전장용 AR 안경, 로봇 학습용 비디오 생성, 그리고 새 관찰에 얽힌 에지 AI 이야기까지. 따로 놓고 보면 각자 다른 이야기지만, "AI가 어디서 어떻게 돌아가는가"라는 축으로 묶으면 꽤 흥미로운 그림이 나온다.

🔥 핫 토픽: Anduril × Meta, 전장의 AR 안경

이게 왜 중요한가: 방위 산업과 빅테크의 경계가 무너지고 있다. Meta가 Anduril과 손잡고 군사용 AR 헤드셋을 만든다는 건, 소비자용 Quest가 전장에 투입된다는 의미가 아니다. 시선 추적으로 드론 공격을 지시하는 인터페이스를 구상 중이라는 게 핵심이다.

Anduril은 팔mer 러크가 세운 방위 기술 회사다. 자율 드론, 감시 타워 같은 걸 만드는 곳인데, Meta와 협력해 군사용 AR을 프로토타입 중이라고 한다. 시선 추적 기능이 들어가서, 병사가 보는 곳을 기준으로 드론을 조종하거나 공격 명령을 내리는 UX를 구상 중이라는 것.

개발자 관점에서 보면: 시선 추적 입력은 게임에서도 계속 연구되는 분야다. UE5에서 Eye Tracking 디버깅해 본 사람들은 알겠지만, 시선 데이터 노이즈 처리가 지옥이다. 전장에서 이걸 쓰려면 0.1초 단위의 응답성과 오작동 방지가 생명인데, 여기에 드론 제어까지 얹으면 latency 예산이 극도로 타이트해진다.

또 하나, Meta의 XR 연구 성과가 군사 목적으로 흘러간다는 윤리적 논의는 피할 수 없다. 기술 자체는 중립적일지 몰라도, 같은 시선 추적 기술이 게임 UX 향상에 쓰이는지 드론 타격에 쓰이는지는 전혀 다른 문제다. 이건 꽤 무거운 주제인데, 최소한 인지는 해두는 게 좋겠다.

기술 배경: AR 헤드셋의 핵심은 SLAM(Simultaneous Localization and Mapping)이다. 주변 환경을 실시간으로 스캔해서 자기 위치를 파악하는 기술인데, 게임으로 치면 실시간 라이트맥핑을 매 프레임 돌리는 셈이다. 전장은 환경 변화가 극심하니, 기존 SLAM 알고리즘이 통할지 의문이다. 아마 Anduril 쪽에서 여기에 대응하는 커스텀 모델을 넣었을 듯.

한줄: 시선으로 드론을 조종하는 세계. 기술적으로 멋지지만, 윤리적으로는 좀 무거운 뉴스.

출처: MIT Tech Review - Inside Anduril and Meta's quest to make smart glasses for warfare

📰 튜토리얼: NVIDIA Cosmos Predict 2.5 파인튜닝으로 로봇 비디오 생성하기

이게 왜 중요한가: 로봇 학습에 "비디오 생성"이 쓰이기 시작했다. NVIDIA Cosmos는 로봇이 어떤 행동을 할 때 주변이 어떻게 변하는지 예측하는 비디오를 생성하는 모델이다. 이걸 LoRA/DoRA로 파인튜닝해서 특정 환경에 맞게 조정하는 튜토리얼이 HuggingFace에 올라왔다.

로봇 학습의 고전적 문제는 시뮬레이션과 현실의 갭이다. Sim-to-Real Transfer 문제라고 하는데, 시뮬레이터에서 100% 잘 되던 로봇이 현실에 나오면 마찰, 조명, 재질 차이 때문에 작동을 안 한다. 이걸 해결하기 위해 비디오 생성 모델로 "현실 같은" 시나리오를 만들어서 학습 데이터를 보강하는 접근이다.

개발자 관점에서 보면: LoRA(Low-Rank Adaptation)는 대규모 모델을 적은 리소스로 파인튜닝하는 기법이다. 게임 개발하면서 AI 사이드프로젝트 하면, VRAM 부족 때문에 골치 아픈 경우가 많은데, LoRA는 그런 상황에서 생명줄이다. DoRA는 LoRA의 변형으로, 가중치 분해 방식을 조금 다르게 해서 성능을 높인 버전이다.

Cosmos 같은 비디오 생성 모델을 로봇 학습에 쓴다는 건, 결국 "세계 모델(World Model)"을 구축한다는 뜻이다. 게임으로 치면, 엔진이 물리 시뮬레이션을 돌리는 대신 AI가 "이 행동 다음에는 이렇게 보일 것"을 예측하는 것. Yann LeCun이 계속 주장하는 세계 모델 개념이 실제 로봇 공학에 적용되는 사례다.

UE5에서 물리 엔진 돌리는 게 익숙한 입장에서 보면, AI로 물리를 "예측"한다는 게 좀 불안하게 들릴 수 있다. 하지만 완벽한 물리 시뮬레이션이 불가능한 환경에서는, "적당히 그럴듯한 예측"이 실용적일 수 있다. 어차피 게임 물리도 근사치 아니었나.

한줄: 로봇 학습을 위해 비디오 생성 모델을 파인튜닝하는 건, 세계 모델 연구가 실용 단계에 진입했다는 신호.

출처: HuggingFace Blog - Fine-Tuning NVIDIA Cosmos Predict 2.5 with LoRA/DoRA

⭐ 에지 AI 이야기: Simon Willison의 새 관찰과 로컬 분류기

이게 왜 중요한가: Simon Willison은 LLM 분야에서 꽤 유명한 인물이다. Datasette, sqlite-utils 같은 오픈소스 도구를 만들었고, 최근에는 LLM 실무 활용에 대해 많이 글을 쓴다. 그런데 이번 포스트는 새 관찰 기록이다. 제목이 "Glaucous-winged Gull, Brown Pelican, Snowy Egret, Canada Goose"다.

왜 이걸 AI 뉴스에 넣었냐면, Simon이 새 관찰 기록을 올리는 방식이 AI와 관련 있기 때문이다. 그는 과거에 로컬에서 돌아가는 이미지 분류 모델로 새 사진을 자동 식별하는 도구를 만든 적이 있다. 에지 AI, 온디바이스 ML의 좋은 사례인 셈.

개발자 관점에서 보면: 클라우드 API 없이 로컬에서 돌아가는 AI 파이프라인 구축은, 게임 개발자에게도 관련 있는 주제다. 게임 내 NPC 행동 예측, 로컬 음성 인식, 이미지 기반 오브젝트 인식 같은 걸 구현할 때, 서버 왕복 없이 클라이언트에서 처리해야 하는 상황이 많다.

Simon의 접근 방식은 항상 실용적이다. 거창한 모델보다는, SQLite에 데이터 넣고 로컬 모델 돌려서 결과 내는 식의 파이프라인. 이런 가벼운 접근은 사이드프로젝트 할 때 레퍼런스로 삼기 좋다. 최근에 트랜스포머 모델이 너무 커져서, 로컬에서 돌릴 수 있는 소형 모델의 가치가 다시 주목받는 것도 같은 맥락이다.

한줄: 에지 AI는 여전히 살아있다. 클라우드가 다 해결해줄 것 같지만, 로컬 처리의 가치는 사라지지 않는다.

출처: Simon Willison - Glaucous-winged Gull, Brown Pelican, Snowy Egret, Canada Goose

연결고리

세 뉴스를 관통하는 키워드는 "AI가 어디서 돌아가는가"다.

전장 AR은 엣지 디바이스에서 실시간으로 돌아가야 한다. 드론 공격 명령을 클라우드까지 왕복해서 처리할 수는 없으니까. 로봇 비디오 생성은 학습 단계에서는 대규모 GPU가 필요하지만, 추론 단계에서는 로봇 자체의 온디바이스 처리로 이어진다. Simon의 새 분류기는 처음부터 로컬에서 돌아가도록 설계됐다.

결국 AI의 실행 환경이 분산되고 있다. 클라우드에서 학습하고, 엣지에서 추론하는 패턴이 점점 더 명확해지는 흐름이다. 게임 개발에서도 서버-클라이언트 아키텍처를 고민할 때, "AI 처리를 어디서 할 것인가"는 이제 피할 수 없는 질문이다.

오늘의 한줄: 전장, 로봇 공장, 새 관찰. 장소는 달라도 AI가 향하는 곳은 같다 — 클라우드를 벗어나 로컬로.

AR 방위기술 NVIDIA Cosmos 로봇공학 에지AI LoRA 시선추적 세계모델