Reproducir, analizar y detectar reward hacking en RL con rúbricas Aprende cómo CHERRL reproduce y detecta reward hacking en RL con rúbricas, identificando sesgos del juez LLM para entrenar IA más segura. 2026-06-04 · 1 min