Convergencia en tiempo finito del Q-learning robusto distribucional
Descubre cómo el Q-learning robusto con aproximación lineal converge en tiempo finito bajo incertidumbre chi-cuadrado, usando solo trayectorias markovianas.
Descubre cómo el Q-learning robusto con aproximación lineal converge en tiempo finito bajo incertidumbre chi-cuadrado, usando solo trayectorias markovianas.
Aprende a calibrar la robustez en tus decisiones con garantías de muestra finita mediante control de riesgo conforme inverso. Optimiza el equilibrio entre coste y riesgo.
Descubre cómo el transporte óptimo puede ser justo para grupos. Nuevo algoritmo Sinkhorn, relajaciones y equilibrio entre equidad y coste.