#coeficiente de variación

SAW: Ponderación Dinámica por Etapas para RL Multiobjetivo en LLMs

Mejora el alineamiento de LLMs con SAW, ponderación dinámica que optimiza el aprendizaje multiobjetivo sin apenas coste computacional.