#β1

$Por qué Adam funciona mejor con $\beta_1 = \beta_2$: El principio faltante de invariancia de escala del gradiente$

Por qué Adam funciona mejor con $\beta_1 = \beta_2$: El principio faltante de invariancia de escala del gradiente

Descubre cómo el principio de invariancia de escala del gradiente se aplica a Adam con β1 = β2. Una clave para optimizar redes neuronales.