commitsmemradar · 603fadb
역할 분류 시그널 실전 어휘로 전면 재조정, 평가 편향도 같이 고쳤다
🤖 2064 in / 1678 out / 3742 total tokens
v2 평가에서 30샘플 100% 달성이 무의미했다는 걸 깨달았다. 생성 AI에 시그널 키워드를 노출한 상태로 테스트 데이터를 만들었으니 편향일 수밖에 없다. 이번 커밋은 두 가지를 동시에 고친다. 역할 분류 시그널의 어휘를 실전 기반으로 재조정하고, 평가 스펙을 v3로 재작성했다
이더4주 전3 min read0memradar평가편향NLP분류