¿Son suficientes los LLMs como optimizadores de políticas en RL? ¿Cuándo son suficientes los LLMs como optimizadores de políticas en RL? PromptPO iguala o supera algoritmos clásicos. Conoce sus límites en control continuo. 2026-06-01 · 2 min