Lightning OPD: Entrenamiento posterior eficiente para modelos grandes de razonamiento con destilación fuera de línea en política.
Descubre la destilación offline en política para el entrenamiento eficiente de modelos de razonamiento. Optimiza el aprendizaje posterior con esta técnica innovadora.