Por qué Adam funciona mejor con $\beta_1 = \beta_2$: El principio faltante de invariancia de escala del gradiente
Descubre cómo el principio de invariancia de escala del gradiente se aplica a Adam con β1 = β2. Una clave para optimizar redes neuronales.