T$^2$PO: Control de exploración guiado por incertidumbre para aprendizaje por refuerzo agéntico multiturno estable
T2PO: Control de exploración guiado por incertidumbre para aprendizaje por refuerzo agéntico multiturno estable. Mejora la estabilidad y eficiencia en entornos de RL.