#gdpo

SAW: Ponderación Dinámica por Etapas para RL Multiobjetivo en LLMs

Mejora el alineamiento de LLMs con SAW, ponderación dinámica que optimiza el aprendizaje multiobjetivo sin apenas coste computacional.

2026-06-16 · 2 min

GD²PO: Mitigando conflictos multi-recompensa en RL

Descubre GD²PO, un nuevo método que resuelve conflictos multi-recompensa en RL, mejorando la eficiencia del entrenamiento de LLMs con filtrado dinámico de

2026-06-16 · 1 min