ÓRBITA: Exploración-Explotación On-policy para Razonamiento Multi-Presupuesto Controlable
Exploración-Explotación On-policy para Razonamiento Multi-Presupuesto Controlable: estudio sobre estrategias de toma de decisiones óptimas en diferentes escenarios presupuestarios.