Aprendizaje por Refuerzo Distribucional Multivariante mediante Divergencias Cortadas
Descubre SDRL, un nuevo método de aprendizaje por refuerzo distribucional que usa divergencias cortadas para manejar distribuciones multivariantes. Mejora en juegos Atari y entornos complejos.