AI 업데이트: LLM 평가 프레임워크와 데이터 파이프라인

🤖 828 in / 2055 out / 2883 total tokens

오늘은 GitHub에서 눈에 띄는 LLM 평가 도구 하나랑 Simon Willison의 새 프로젝트 소식이다.

⭐ 오픈소스

rubric-eval — 로컬 LLM & AI 에이전트 평가 프레임워크

https://github.com/Kareem-Rashed/rubric-eval

LLM이나 AI 에이전트 만들어봤으면 다들 겪는 문제가 있다. "이게 제대로 작동하는지 어떻게 검증하지?"

rubric-eval은 바로 그 문제를 다루는 독립 프레임워크다. 로컬에서 돌아가고, 벤치마킹, 테스트, 평가를 한 번에 처리할 수 있게 설계됐다. Anthropic 같은 주요 벤더도 지원한다고 하니 Claude 기반 에이전트 개발자라면 바로 써먹을 수 있겠다.

게임 개발에서도 CI/CD 파이프라인에 유닛 테스트 넣듯이, AI 에이전트 개발에서도 이런 평가 파이프라인은 필수다. NPC 대화 시스템이나 퀘스트 생성 AI 같은 거 만들 때, 출력 품질을 자동으로 체크해주는 녀석이 있으면 얼마나 편할까. 수동으로 "음 이거 괜찮네" 하면서 테스트하던 날들은 이제 그만.

출처: GitHub - Kareem-Rashed/rubric-eval

📰 뉴스

datasette-files-s3 0.1a1 릴리즈

https://simonwillison.net/2026/Mar/25/datasette-files-s3/#atom-everything

Simon Willison이 또 하나 쏘아 올렸다. datasette의 S3 파일 핸들링 플러그인의 첫 알파 버전.

datasette를 써본 사람은 알겠지만, SQLite DB를 REST API로 바로 노출해주는 녀석이다. 여기에 S3 파일 관리 기능이 붙었으니, 이제 정적 에셋이나 로그 파일 같은 거 DB랑 같이 관리하기 좋아졌다.

AI 프로젝트 하다 보면 모델 체크포인트, 학습 데이터, 추론 로그 같은 거 S3에 쌓아두는데, 이걸 datasette로 뒤져볼 수 있으면 꽤 편하겠다. 대시보드 하나 뚝딱 만들어서 데이터 탐색하는 용도로 쓰기 좋을 듯.

출처: Simon Willison's Weblog

사실 오늘 소식은 딱 두 개다. 근데 rubric-eval은 꽤 쓸만해 보인다. 에이전트 개발할 때 평가 로직 직접 짜느라 고생한 적 있는데, 이런 게 나와주니 반갑다.

LLM 에이전트 만들 때 "잘 작동하는지 확인"이 제일 어렵다. 자동화된 평가 파이프라인은 선택이 아니라 필수.

LLM 평가 AI 에이전트 오픈소스 데이터 파이프라인 S3