#on-policy

Cuando el Maestro No Puede Ayudar: Combatiendo la Decadencia de Fidelidad en Destilación

Lookahead Group Reward combate la degradación de fidelidad en destilación on-policy, mejorando el razonamiento en modelos de IA hasta 4.92 puntos en AIME-26.

2026-06-01 · 1 min

Mezcla de Comportamiento con Región de Confianza para Destilación On-Policy

Descubre cómo TRB mejora la destilación on-policy con mezcla de comportamientos y región de confianza, logrando mejores resultados en razonamiento matemático.

2026-06-01 · 3 min

OISD: Autodestilación interna on-policy de modelos de lenguaje

2026-05-30 · 2 min

Descenso de espejo en el espacio de trayectorias para el aprendizaje por refuerzo on-policy bajo el puente de Schrödinger generalizado

Descenso de espejo en trayectorias para RL on-policy bajo el puente de Schrödinger generalizado. Método innovador que optimiza políticas combinando teoría de puentes de Schrödinger y aprendizaje por refuerzo.

2026-05-29 · 3 min

Destilación on-policy eficiente en datos para el reconocimiento automático del habla

Aprende sobre destilación on-policy eficiente en datos para reconocimiento del habla. Mejora el rendimiento de ASR con menos datos de entrenamiento.

2026-05-29 · 2 min

Destilación on-policy multi-maestro consciente de la contraacción para la recuperación de capacidades generales con preservación del dominio

2026-05-27 · 2 min

Menos es más: Detención temprana del rollout para destilación on-policy

Descubre cómo la parada temprana del rollout optimiza la destilación on-policy. Menos recursos, mejores resultados. Estrategia eficiente para modelos de aprendizaje automático.

2026-05-27 · 2 min

No todo desacuerdo es aprendible: Enseñabilidad de tokens en destilación on-policy

2026-05-27 · 2 min