#procesos de decisión

Bandidos inquietos: indexabilidad PCL con retroalimentación binaria imperfecta

Calcula el índice de Whittle para bandidos inquietos con retroalimentación binaria imperfecta. Optimiza decisiones en espectro oportunista.

2026-06-11 · 3 min

Aprendizaje por refuerzo con observaciones activadas por acciones

Descubre cómo ATST-MDP optimiza el aprendizaje por refuerzo con observaciones activadas por acciones, mejorando la eficiencia en entornos parcialmente observables.

2026-06-11 · 2 min

Decodificación Bellman-Taylor para MDP con acciones estado-dependientes

La decodificación Bellman-Taylor optimiza políticas en MDP con acciones estado-dependientes, superando RL tradicional. Resultados óptimos en control de colas.

2026-06-10 · 2 min

Desaprendizaje exacto en aprendizaje por refuerzo

Descubre cómo un nuevo algoritmo de RL permite eliminar datos de usuarios de forma exacta y eficiente, reduciendo el costo computacional. ¡Optimiza la privacidad!

2026-06-04 · 2 min

Aprendizaje bayesiano para el problema de ruta más corta estocástica

Aprende cómo el aprendizaje bayesiano cuantifica la incertidumbre en rutas estocásticas, mejorando la eficiencia de datos frente a métodos tradicionales.

2026-06-04 · 3 min

Gradiente de Política para MDP Robustos en Tiempo Continuo

Descubre cómo los algoritmos de gradiente de política en tiempo continuo mejoran la robustez en MDPs, con convergencia lineal y menor complejidad muestral.

2026-06-04 · 2 min

Conjunto semi-algebraico de valor en POMDPs

Aprende cómo el conjunto semi-algebraico de la función de valor en POMDPs revela una geometría no lineal y maximizadores locales.

2026-06-03 · 3 min

Complejidad polinomial de iteración de políticas para MDP robustos L∞

Descubre cómo la iteración de políticas alcanza tiempo polinomial fuerte para MDPs robustos con conjuntos L∞. Un avance clave en optimización secuencial.

2026-06-03 · 2 min

Pruebas secuenciales asintóticamente óptimas con datos markovianos

Descubre un método asintóticamente óptimo para pruebas secuenciales en cadenas de Markov. Mejora límites inferiores y aplicaciones en MCMC y MDPs.

2026-06-03 · 2 min

RL continuo seguro con interacción limitada en tratamientos médicos dinámicos

Un nuevo marco de RL continuo seguro optimiza el momento de las interacciones clínicas y garantiza seguridad en toda la trayectoria. ¡Lee el artículo!

2026-06-02 · 2 min

Blindaje Robusto para Aprendizaje por Refuerzo Seguro

Descubre el blindaje robusto para RL seguro. Garantiza seguridad en MDPs con transiciones inciertas mediante lógica temporal. Ideal para alta incertidumbre.

2026-06-02 · 2 min

Comportamiento de Teoría de Prospectos en MDPs con Estados Catastróficos

Descubre cómo la optimalidad de Bellman en MDPs con estados catastróficos produce aversión a pérdidas y efecto reflejo, sin preferencias de riesgo.

2026-06-02 · 4 min