#opsd

OPSD comprime lo que RLVR enseña: Una etapa de compactación posterior a RL para modelos de razonamiento

OPSD comprime la enseñanza de RLVR en modelos de razonamiento, optimizando el aprendizaje por refuerzo con recompensas verificables.