OPSD comprime lo que RLVR enseña: Una etapa de compactación posterior a RL para modelos de razonamiento OPSD comprime la enseñanza de RLVR en modelos de razonamiento, optimizando el aprendizaje por refuerzo con recompensas verificables. 2026-05-09 · 1 min