GDSD: Aprendizaje por Refuerzo como Autodestilación Guiada del Denoizador para Modelos de Lenguaje de Difusión
Descubre GDSD: una técnica de autodestilación guiada con aprendizaje por refuerzo que optimiza modelos de difusión de lenguaje. Mejora eficiencia y rendimiento.