Countdown-Code: Un banco de pruebas para estudiar la aparición y generalización del pirateo de recompensas en RLVR
Una colección de pruebas para estudiar la aparición y generalización del hackeo de recompensas en RLVR. Descubre cómo se manifiesta este fenómeno en entornos de aprendizaje por refuerzo.