Optimización Directa de Preferencias Exploratoria Consciente de la Incertidumbre para Modelos de Lenguaje Grandes Multimodales
<meta content=Optimización directa de preferencias exploratoria con incertidumbre para modelos multimodales. Mejora la robustez y adaptabilidad del aprendizaje.>