Sesgo de distancia de representación en modelos de recompensa El sesgo de distancia en la pérdida BT distorsiona el aprendizaje de modelos de recompensa. NormBT lo corrige con normalización adaptativa, mejorando la precisión hasta un 5%. 2026-06-10 · 2 min