DynaCF: Mitigando el Aprendizaje por Atajos en Modelos de Recompensa DynaCF reduce el aprendizaje superficial en modelos de recompensa mediante reajuste dinámico con contrafácticos, mejorando robustez y calidad de preferencias. 2026-06-09 · 1 min