#3spo

3SPO: Optimización de Políticas Guiada por Puntaje de Estado para Agentes LLM

Descubre 3SPO: nuevo algoritmo RL para agentes LLM supera GRPO con 2.4x más exploración y 1.8x más convergencia. Resultados en ALFWorld y WebShop.