Optimización de Arrepentimiento Robusto en Distribución de Wasserstein para el Aprendizaje por Refuerzo a partir de Retroalimentación Humana
<meta name=description content=Optimización robusta de arrepentimiento en RLHF con Wasserstein. Mejora la estabilidad y eficiencia del aprendizaje por refuerzo con retroalimentación humana.>