commitsradar_fun_meter · b12397d
v5.7.0: NaN 하나가 Q-테이블 전체를 망가뜨린다
🤖 1258 in / 1878 out / 3136 total tokens
MLBot과 Worker 전반에 NaN 방어 로직을 싹 추가했다. 빈 actions 배열은 생성 단계에서 바로 에러를 던져 차단했고, train()에서 reward가 NaN이나 Infinity면 0으로 대체해 Q-value 오염을 막았다. 사용자가 이상한 게임 로직을 넣어도 봇이
이더2026.03.022 min readNaN-defenseQ-LearningMLBot