AI 업데이트: LLM을 믿을 수 있나, 그리고 에이전트의 진화

🤖 0 in / 0 out / 0 total tokens

오늘 논문 5편이 공통으로 건드리는 주제가 있다: LLM을 실제로 믿을 수 있냐는 질문이다.

🔥 LLM의 내재화된 편향이 결과를 망친다

어노테이션 작업에 LLM을 zero-shot으로 쓰거나 심판(judge)으로 쓰는 게 유행인데, 이 논문은 거기에 찬물을 끼얹는다. 모델이 사전 학습으로 내재화한 prior가 있어서, 아무리 정교한 프롬프트를 짜도 그걸 완전히 덮어쓰기 어렵다는 내용이다.

GPU 드라이버 버그를 소프트웨어로 우회하려는 것과 비슷하다. 어느 선까지는 되는데, 하드웨어 수준에 박힌 문제는 결국 튀어나온다. 어노테이션 품질을 맹목적으로 믿으면 안 된다는 경고다.

출처: On the Limits of LLM Adaptability

🧠 LLM의 자기보고는 얼마나 믿을 수 있나

LLM에게 "당신은 어떤 성격인가요?"라고 물으면 나오는 답(self-report)이 실제 행동을 예측하는가? 이 논문은 그 조건을 분석한다. 어떤 경우엔 예측하고, 어떤 경우엔 전혀 안 한다는 결론이다.

AI를 프로덕션에 배포하기 전에 저비용으로 안전성을 검사하고 싶다면 중요한 논문이다. 심리 테스트 방식으로 모델을 평가하는 게 유효한 시나리오를 구체적으로 알려준다. 모든 상황에 통하는 게 아니라 "언제 통하는가"를 아는 게 핵심이다.

출처: Rethinking Psychometric Evaluation of LLMs

🔗 에이전트끼리 텍스트 대신 KV-캐시로 대화한다

멀티에이전트 시스템에서 에이전트끼리 텍스트로 소통하면 디코딩 → 인코딩을 반복해야 한다. 정보 손실도 생기고 비용도 크다. 이 논문은 KV-캐시를 직접 전달하는 방식을 서로 다른 모델 아키텍처를 가진 이종(heterogeneous) 에이전트 간에도 적용한다.

게임 서버로 치면 서버-클라이언트 간 직렬화 없이 메모리를 직접 공유하는 것과 같다. 같은 모델끼리라면 KV 공유가 쉬운데, 다른 아키텍처 간 맵핑 문제를 풀었다는 점이 핵심이다. 멀티에이전트 파이프라인의 성능 상한이 올라가는 방향이다.

출처: See What I See, Know What I Think

🛠️ 코딩 에이전트가 내 교정을 다음 세션에도 기억한다

AI 코딩 에이전트를 쓰다 보면 같은 실수를 반복하는 걸 느낀다. 세션이 바뀌면 이전 교정이 리셋된다. 이 논문은 사용자 교정을 런타임 enforcement로 컴파일하는 방식을 제안한다.

"이렇게 하지 마"라고 한 번 말하면 그게 규칙으로 굳어져서 다음 세션에도 적용된다는 거다. 지금도 CLAUDE.md 같은 파일로 우회하고 있는데, 이걸 자동화하는 방향이다. Claude나 Copilot에 실제로 구현되면 체감이 상당할 것 같다. 나도 매 세션 같은 말 반복하는 게 지겨웠다.

출처: Getting Better at Working With You

🌐 웹 에이전트, 비싼 추론 모델 없이도 된다

자율 웹 탐색 에이전트는 대부분 o1 같은 고비용 추론 모델에 의존한다. WebChallenger는 그 의존도를 끊고 범용 웹 에이전트를 구현했다. 반복적인 태스크에서 추론 비용이 감당 안 되는 문제를 정면으로 해결하려는 시도다.

CI/CD 파이프라인에 웹 자동화를 붙이거나 서비스 모니터링에 에이전트를 쓰려고 할 때 비용이 항상 걸린다. 이 방향의 연구가 실용화되면 선택지가 훨씬 넓어진다. 고비용 모델에 종속되지 않아도 되는 에이전트 생태계가 열리는 거다.

출처: WebChallenger

LLM을 믿을 수 있냐는 질문에 오늘 논문들이 다양한 각도로 답한다 — 편향의 한계를 알고, 행동을 예측하고, 통신을 효율화하고, 교정을 기억하게 만드는 것. 신뢰는 선언이 아니라 설계다.

LLM신뢰성 멀티에이전트 코딩에이전트 웹에이전트 KV캐시

← 이전 글

AI 업데이트: 미국 정부의 AI 접근 통제와 Anthropic의 공개 행보

다음 글 →

AI 업데이트: Claude가 로봇과 로컬 네트워크로 내려오는 순간