EST-PRM: Pruebas de estrés a modelos de recompensa de proceso EST-PRM pone a prueba la estabilidad de los modelos de recompensa de proceso ante transformaciones que distorsionan la calibración de recompensas. 2026-06-02 · 2 min