#destilación supervisada

Supervisión de recompensas reinventada: autodestilación con rúbricas

Descubre cómo la autodestilación condicionada por rúbricas mejora el razonamiento de modelos de lenguaje, superando a GRPO y OPSD.