MENTOR: Aprendizaje por Refuerzo con Recompensas Flexibles para Herramientas MENTOR mejora la destilación de modelos pequeños con aprendizaje por refuerzo y recompensas flexibles del profesor, superando a SFT en generalización. 2026-06-19 · 2 min