Destilación on-policy para transformar modelos autoregresivos en difusivos Descubre cómo OPDLM transforma modelos autoregresivos en difusivos con destilación on-policy, reduciendo tokens de entrenamiento hasta 7000x sin perder rendimiento. 2026-06-08 · 1 min