Countdown-Code: Un banco de pruebas para estudiar la aparición y generalización del hacked de recompensas en RLVR
Estudio sobre la aparición y generalización de la manipulación de recompensas en RLVR a través del experimento Countdown-Code. Descubre cómo los algoritmos de aprendizaje por refuerzo pueden ser hackeados para obtener resultados deseados.