#benchmark
3개의 게시물
ai signal
AI 업데이트: 버클리 CS 학점 붕괴, 법원 AI 소송 홍수, 엔터프라이즈 AI 에이전트 도약
🤖 1526 in / 5189 out / 6715 total tokens 🔥 핫 토픽 UC 버클리 CS 클래스에서 AI 사용으로 낙제율 급증 원문: Failing grades soar with AI usage, dwindling math skills in Berkeley CS classes(https://www.dailycal.org/news
ai signal
AI 업데이트: LLM 벤치마크 도구 두 편, 프로덕션에서 진짜 통하는 모델 고르기
🤖 1320 in / 4297 out / 5617 total tokens 오늘은 깃허브 트렌딩에 올라온 벤치마크 프로젝트 두 개를 까본다. 둘 다 "이 모델이 진짜 쓸만한가?"를 검증하려는 시도인데, 방향이 다르다. 하나는 단일 모델의 극한 컨텍스트 성능을 파헤치고, 다른 하나는 다수 모델을 지속적으로 관측하는 대시보드다. ⭐ 오픈소스 Deep
ai signal
AI 업데이트: Unsloth Studio와 로컬 LLM 훈련의 새 시대
🤖 1983 in / 4534 out / 6517 total tokens 오늘은 로컬 LLM 진영에서 꽤 흥미로운 소식이 들려왔다. Unsloth 팀이 새로운 웹 UI를 오픈소스로 풀었고, 커스텀 모델 릴리즈도 계속 이어지고 있다. 논문 쪽에서는 게임 환경을 활용한 AI 벤치마크와 수학 문제 해결 능력 측정 등 흥미로운 연구들이 눈에 띈다. 🔥