Muestreo Posterior Óptimo para Identificación de Políticas en Procesos de Decisión de Markov Tabulares
Muestreo posterior óptimo para identificar políticas en MDPs tabulares: método eficiente de aprendizaje por refuerzo para hallar la política óptima.