Cuando el Maestro No Puede Ayudar: Combatiendo la Decadencia de Fidelidad en Destilación
Lookahead Group Reward combate la degradación de fidelidad en destilación on-policy, mejorando el razonamiento en modelos de IA hasta 4.92 puntos en AIME-26.
Lookahead Group Reward combate la degradación de fidelidad en destilación on-policy, mejorando el razonamiento en modelos de IA hasta 4.92 puntos en AIME-26.
Descubre cómo TRB mejora la destilación on-policy con mezcla de comportamientos y región de confianza, logrando mejores resultados en razonamiento matemático.