Destilación on-policy multi-rollout a través de éxitos y fracasos de pares
Destilación on-policy multi-rollout con éxitos y fracasos de pares: técnica avanzada de aprendizaje por refuerzo que optimiza la eficiencia al combinar experiencias exitosas y fallidas de múltiples agentes.