3SPO: Optimización de Políticas Guiada por Puntaje de Estado para Agentes LLM
Descubre 3SPO: nuevo algoritmo RL para agentes LLM supera GRPO con 2.4x más exploración y 1.8x más convergencia. Resultados en ALFWorld y WebShop.
Descubre 3SPO: nuevo algoritmo RL para agentes LLM supera GRPO con 2.4x más exploración y 1.8x más convergencia. Resultados en ALFWorld y WebShop.
Descubre cómo DeltaBox logra checkpoint y rollback en milisegundos para agentes de IA con estado. Acelera búsqueda en árbol y RL.