ai signal
AI 업데이트: 장기 실행 에이전트 벤치마크와 비용 효율성의 역설
🤖 1300 in / 4549 out / 5849 total tokens
🔥 핫 토픽: YC-Bench에서 드러난 Claude와 GLM-5의 비용 대비 성능 격차
12개 LLM이 스타트업 CEO로 1년간 활동한 벤치마크 결과
Reddit r/LocalLLaMA 커뮤니티에서 공개된 YC-Bench는 기존 벤치마크와 완전히 다른 접근법을 취한다.
이더3일 전7 min read0ClaudeAnthropicGLM-5