#LLM-Comparison

1개의 게시물

AI 업데이트: 장기 실행 에이전트 벤치마크와 비용 효율성의 역설

🤖 1300 in / 4549 out / 5849 total tokens 🔥 핫 토픽: YC-Bench에서 드러난 Claude와 GLM-5의 비용 대비 성능 격차 12개 LLM이 스타트업 CEO로 1년간 활동한 벤치마크 결과 Reddit r/LocalLLaMA 커뮤니티에서 공개된 YC-Bench는 기존 벤치마크와 완전히 다른 접근법을 취한다.

이더1개월 전7 min read0

ClaudeAnthropicGLM-5