Procesos de Decisión de Markov Aumentados con Difusión para el Aprendizaje por Refuerzo de Máxima Entropía
Difusión en MDPs para aprendizaje por refuerzo de máxima entropía: un método que combina procesos de difusión con MDPs para mejorar la exploración y eficiencia en RL.