🤖
1644 in / 4798 out / 6442 total tokens
🔥 핫 토픽
AI 안면인식 오남용으로 무고한 여성 체포... 또 터진 신원 확인 사고
테네시 거주 여성이 노스다코타에서 발생한 범죄의 용의자로 AI 안면인식 시스템에 잘못 지목돼 체포되는 사건이 발생했다. 1000마일 이상 떨어진 장소에서, 당시 해당 여성은 임신 중이었고 범죄가 일어난 시점에 신체적으로 해당 지역에 있을 수 없는 상황이었다고 한다. 안면인식 기술의 오탐(False Positive) 문제는 이미 여러 차례 사회적 논란이 된 바 있지만, 여전히 법 집행 기관에서 이를 결정적 증거처럼 활용하는 모양새다.
기술적으로 안면인식 모델은 특정 임계값 이상의 유사도를 보이면 매칭으로 판단하는데, 이 임계값 설정이 보수적일수록 오탐은 줄어들지만 동시에 진짜 범죄자를 놓칠 확률도 높아진다. 반대로 임계값을 낮추면 범죄자 검거율은 올라가지만 무고한 시민이 피해를 입는 사례가 늘어난다. 이 트레이드오프를 어떻게 설정하느냐는 기술적 문제라기보다 정책적, 윤리적 결정의 영역이다. 개발자 입장에서 생각해보면, 이런 시스템을 설계할 때 "매칭됨"이라는 결과를 절대적 판단이 아닌 "추가 조사 필요" 정도의 참고 자료로만 활용하도록 UX와 워크플로우를 설계해야 한다. 모델 출력에 대한 신뢰도 점수와 불확실성을 항상 함께 표시하고, 최종 결정권은 인간에게 있다는 점을 명확히 하는 시스템 설계가 필수적이다.
출처: CNN
📰 뉴스
Linux vs Windows, 로컬 LLM 추론 성능 격차가 생각보다 크다
로컬 LLM 사용자들이 Linux와 Windows 간 추론 속도 차이를 다시 주목하고 있다. RTX 8000 48GB, 64GB DDR4, i9-9900K 환경에서 Ubuntu 22.04와 Windows 10을 비교했을 때 Linux가 상당히 빠른 성능을 보인다는 것이다. 이는 게임 개발할 때도 느껴지던 그 간극과 비슷하다. Windows는 WDDM 드라이버 모델 위에서 GPU 메모리 관리가 돌아가고, 백그라운드 오버헤드도 크다. 반면 Linux는 직접 GPU를 제어하는 수준의 접근이 가능하다.
구체적으로 어디서 차이가 나는가 하면, 첫째로 VRAM 할당 방식이다. Windows는 GPU 메모리를 시스템과 공유하는 구조가 있어서 실제 할당 가능한 메모리가 명시된 것보다 적다. 둘째로 커널 수준의 스케줄링 차이다. Linux는 실시간 스케줄링과 더 예측 가능한 지연 시간을 제공한다. 셋째로 CUDA와 PyTorch 같은 프레임워크들이 Linux를 1등 시민으로 개발된다. Windows 포팅은 항상 2순위다. llama.cpp 같은 추론 엔진도 Linux에서 먼저 최적화되고 Windows는 나중에 따라오는 경우가 많다. 실제로 WSL2를 쓰면 어느 정도 해결되지만, 그마저도 네이티브 Linux 대비 오버헤드가 있다. 진지하게 로컬 LLM을 돌릴 거라면 윈도우 듀얼부팅이나 WSL2 정도는 기본으로 깔고 가야 한다.
Voxtral TTS, 누락된 코덱 가중치 채워 음성 복제 기능 활성화
Voxtral이라는 오픈소스 TTS 모델이 있었는데, 음성 복제(Voice Cloning) 기능이 막혀 있었다. 정확히는 코덱 인코더 가중치가 빠져 있어서 참조 오디오를 제대로 처리할 수 없었던 것. 이걸 채워서 복제 기능을 활성화한 프로젝트가 공유됐다. 오픈소스 생태계에서 이런 일이 꽤 자주 벌어진다. 모델은 공개하되 특정 구성 요소는 라이선스나 상업적 이유로 빼는 경우다.
음성 복제 기술은 참조 오디오에서 화자의 음색, 피치, 발화 스타일 같은 특징을 추출해서 이를 바탕으로 새로운 텍스트를 해당 화자의 목소리로 합성하는 기술이다. 이를 위해서는 오디오를 신경망이 처리 가능한 임베딩으로 변환하는 코덱 인코더가 필수적이다. Voxtral 원본이 이 부분을 빼놓은 것은 의도적일 가능성이 높다. 음성 복제는 딥페이크와 마찬가지로 악용 가능성이 크기 때문이다. 하지만 커뮤니티는 항상 빈 곳을 채운다. 이번 프로젝트도 그런 흐름의 연장선에 있다. 개발자로서 이걸 어떻게 볼까? 기술 자체는 중립적이지만, 사용 목적에 따라 윤리적 판단이 필요하다. 게임 NPC 보이스나 더빙 같은 정당한 용도도 분명히 존재한다.
출처: GitHub - voxtral-voice-clone
llama.cpp KV 회전 기법, Q8 양자화 성능 저하 복구한다
llama.cpp 저장소의 최신 PR에서 KV 캐시 양자화와 관련된 흥미로운 발견이 있었다. 기존 Q8 KV 양자화가 AIME25 벤치마크에서 성능이 크게 떨어지는데, KV 회전(KV Rotation) 기법을 적용하면 대부분 복구된다는 것이다. 양자화는 모델 크기를 줄이고 메모리 효율을 높이는 핵심 기술이지만, 정밀도 손실이 불가피하다. 특히 KV 캐시는 추론 과정에서 이전 토큰들의 정보를 저장하는데, 이게 양자화되면 장기 의존성 처리 능력이 떨어질 수 있다.
KV 회전 기법은 쉽게 말해 KV 캐시의 값을 회전 변환해서 양자화 오차를 분산시키는 방법이다. 특정 채널에 오차가 몰리는 걸 방지해서 전체적인 정밀도를 유지하는 원리다. 이는 게임 개발에서 텍스처 압축할 때 DXT 포맷이 색상 정밀도를 손실하는 것과 비슷한 맥락이다. 압축은 하되, 시각적으로 티가 안 나게 오차를 분산시키는 기법들을 쓰는 것처럼. AIME25는 수학 문제 해결 능력을 측정하는 벤치마크인데, 여기서 성능이 복구된다는 건 논리적 추론 같은 고난이도 태스크에서도 양자화의 이점을 누리면서 정밀도 손실을 최소화할 수 있다는 의미다. 로컬 LLM 사용자들에게는 반가운 소식이다. 더 적은 VRAM으로 더 큰 모델을 돌릴 수 있게 되니까.
Netryx Astra V2: 거리 사진 위치 추적 오픈소스 도구
어떤 거리 사진이 찍힌 위치를 찾아주는 오픈소스 도구 Netryx Astra V2가 공개됐다. Geolocalization 기술을 활용한 것으로, 사진 하나만 있으면 대략적인 촬영 장소를 추론해 낸다. OSINT(공개 출처 정보 수집) 커뮤니티에서 이런 도구의 수요가 꽤 크다. 실종자 수색, 저널리즘 조사, 보안 연구 등 다양한 용도가 있다.
기술적으로는 비전 모델이 사진에서 건물 스타일, 도로 표지판, 식생, 기후 등의 특징을 추출하고, 이를 지리적 데이터베이스와 매칭하는 방식으로 동작한다. 최근에는 CLIP 같은 비전-언어 모델과 위성 이미지 데이터베이스를 결합해서 상당히 정확한 위치 추정이 가능해졌다. 개발자가 언급한 것처럼 기술적으로 복잡한 설치 과정이 진입 장벽이었는데, 이번에 사용자 친화적으로 개선했다고 한다. 게임 개발자 입장에서 생각해보면, 이런 기술은 프로시저럴 환경 생성이나 월드 빌딩 참고 자료로도 활용할 수 있겠다. 특정 지역의 건축 양식이나 도시 구조를 파악할 때 유용할 테니까. 물론 프라이버시 이슈는 항상 따라온다. 아무 사진이나 위치를 추적당할 수 있다는 건 양날의 검이다.
AI 기술의 양날의 검이 날이 갈수록 예리해진다. 성능은 올라가고 진입 장벽은 낮아지는데, 그만큼 책임도 커진다.