GD²PO: Mitigando conflictos multi-recompensa en RL Descubre GD²PO, un nuevo método que resuelve conflictos multi-recompensa en RL, mejorando la eficiencia del entrenamiento de LLMs con filtrado dinámico de 2026-06-16 · 1 min