Enfoque de Optimización de Preferencia Directa de Justicia para el Aprendizaje Continuo en Modelos Multimodales Grandes $\phi$-DPO Optimización de preferencia directa de justicia para modelos multimodales grandes 2026-02-28 · 2 min