Más allá de la varianza: RLVR eficiente en indicaciones mediante amplificación de eventos raros y emparejamiento bidireccional
Descubre cómo la amplificación de eventos raros y el emparejamiento bidireccional optimizan RLVR, superando la varianza para un aprendizaje eficiente.