TCOD: Explorando el currículo temporal en la destilación en política para agentes autónomos de múltiples turnos
Descubre cómo la destilación de políticas con currículo temporal optimiza agentes autónomos multi-turno, mejorando su aprendizaje y eficiencia en tareas secuenciales.