#exploración de estados

3SPO: Optimización de Políticas Guiada por Puntaje de Estado para Agentes LLM

Descubre 3SPO: nuevo algoritmo RL para agentes LLM supera GRPO con 2.4x más exploración y 1.8x más convergencia. Resultados en ALFWorld y WebShop.

Descubre cómo DeltaBox logra checkpoint y rollback en milisegundos para agentes de IA con estado. Acelera búsqueda en árbol y RL.