Supervisión de recompensas reinventada: autodestilación con rúbricas
Descubre cómo la autodestilación condicionada por rúbricas mejora el razonamiento de modelos de lenguaje, superando a GRPO y OPSD.
Descubre cómo la autodestilación condicionada por rúbricas mejora el razonamiento de modelos de lenguaje, superando a GRPO y OPSD.