Optimización de Preferencia Desviada para Generación en Un Paso Descubre cómo DrPO optimiza modelos generativos de un paso sin necesidad de gradientes de recompensa, mejorando la alineación y reduciendo el costo computacional. 2026-06-02 · 2 min