Críticas débiles hacen aprendices fuertes: destilación on-policy para supervisión escalable
Descubre cómo las críticas de modelos débiles pueden potenciar modelos de lenguaje fuertes mediante destilación on-policy, mejorando razonamiento y alineación para supervisión escalable.