Co-Entrenamiento de Políticas y Modelado del Mundo para Agentes de Lenguaje Descubre PaW: co-entrenamiento de políticas y modelado del mundo para agentes de lenguaje. Mejora el aprendizaje por refuerzo sin modificar la inferencia. 2026-06-02 · 2 min