AI 업데이트: LLM 벤치마크부터 의료AI까지

🤖 916 in / 2587 out / 3503 total tokens

오늘은 깃허브 트렌딩과 HuggingFace 논문에서 꽤 흥미로운 프로젝트들이 올라왔다. LLM을 믿을 수 있는지 따져보는 벤치마크부터, AI 지식을 시각화한 지식그래프, 그리고 암 진단을 위한 의료AI 아틀라스까지. 하나씩 살펴보자.

🔥 핫 토픽

BlindBench — LLM 블라인드 테스트 벤치마크

원문: GitHub - blindbench

요즘 LLM 벤치마크가 참 많다. 그런데 대부분 특정 모델에 최적화되어 있거나, 마케팅 점수가 섞여 있어 신뢰하기 어렵다. BlindBench는 이 문제를 정면으로 공격한다. 100개 이상의 AI 모델을 브랜드 정보 없이 블라인드 테스트하고, 진실 점수(Truth Scoring)와 추론 실패 분류까지 제공한다.

왜 중요한가: 모델 선택할 때 "GPT라서", "Claude라서" 같은 브랜드 프리미엄을 걷어내고, 실제 성능만으로 비교할 수 있다는 게 개발자 입장에서 꽤 매력적이다. 특히 AI 안전성이나 할루시네이션 문제를 진지하게 고려하는 프로젝트라면 한번쯤 들여다볼 만하다.

🛠️ 오픈소스 & 도구

TalentScout — AI 기반 채용 어시스턴트

원문: GitHub - talentscout-hiring-assistant

LLM을 활용해 채용 과정을 자동화하는 프로젝트다. 후보자 스크리닝부터 동적 질문 생성, 답변 평가와 점수 매기기까지 전 과정을 커버한다. HR 테크 쪽은 이미 여러 스타트업이 경쟁 중이지만, 오픈소스로 이 정도 완성도를 보여주는 건 드문 일.

왜 중요한가: 채용은 반복 작업이 많고 주관적 판단이 개입되기 쉬운 영역이다. LLM이 이걸 어디까지 객관화할 수 있을지, 그리고 편향 문제를 어떻게 해결할지가 관건이겠지만, 기업 내부 툴로 커스터마이징해서 쓰기엔 충분히 참고할 만한 코드베이스다.

AI Knowledge Graph — AI/ML 지식 시각화

원문: GitHub - ai-knowledge-graph

AI와 머신러닝 개념 132개, 531개의 관계를 11개 카테고리로 정리한 인터랙티브 지식그래프다. GPU 아키텍처부터 프롬프트 인젝션까지 시큐리티 관점까지 커버하고, 6개 언어를 지원한다. D3.js 포스 디렉티드 그래프로 시각화되어 있어 탐색이 꽤 직관적이다.

왜 중요한가: AI 분야는 개념이 워낙 빠르게 늘어나서, 전체 그림을 그리기가 쉽지 않다. 이런 지식그래프는 온보딩 자료로 쓰거나, 내가 놓치고 있는 개념들을 발견하는 용도로 유용하다. 특히 보안 관련 내용이 포함되어 있다는 점이 인상적.

📄 논문

HistoAtlas — 범암종 조직형태학 아틀라스

원문: HuggingFace Papers

의료AI 분야에서 꽤 야심찬 프로젝트다. 21개 TCGA 암종, 6,745개 진단 슬라이드에서 38개의 해석 가능한 조직학적 특징을 추출해서 분자 프로그램 및 임상 결과와 체계적으로 연결한 범암종 아틀라스다. 단순히 이미지 분류가 아니라, 조직학적 특징을 생물학적 의미와 연결했다는 점이 차별화 포인트.

왜 중요한가: 의료AI의 끝판왕은 결국 "해석 가능성"이다. 딥러닝이 99% 정확도를 내도 왜 그런 예측을 했는지 설명 못하면 임상에서 쓰기 어렵다. HistoAtlas는 특징을 명시적으로 정의하고 연관성을 보여주는 방향으로 접근했다. AI가 의사를 대체하는 게 아니라, 의사가 이해할 수 있는 형태로 정보를 정리해주는 도구가 되어야 한다는 철학이 담겨 있는 듯.

오늘의 한줄: LLM을 믿을지 말지는 브랜드가 아니라 데이터가 결정한다. 그리고 의료AI의 미래는 설명 가능성에 달려 있다.

LLM 벤치마크 채용AI 지식그래프 의료AI 오픈소스