3SPO: Optimización de Políticas Guiada por Puntaje de Estado para Agentes LLM Descubre 3SPO: nuevo algoritmo RL para agentes LLM supera GRPO con 2.4x más exploración y 1.8x más convergencia. Resultados en ALFWorld y WebShop. 2026-06-10 · 2 min