Una teoría unificada de convergencia para métodos adaptativos de primer orden en el caso no convexo, incluyendo AdaNorm, AdaGrad completo y diagonal, Shampoo y Muo
Descubre una teoría unificada de convergencia para métodos adaptativos de primer orden en el caso no convexo, incluyendo AdaNorm, AdaGrad completo y diagonal, Shampoo y Muo. Optimiza tus algoritmos con esta innovadora propuesta.