#mujoco

¿Son suficientes los LLMs como optimizadores de políticas en RL?

¿Cuándo son suficientes los LLMs como optimizadores de políticas en RL? PromptPO iguala o supera algoritmos clásicos. Conoce sus límites en control continuo.

2026-06-01 · 2 min