La geometría del grokking: minimización de norma en la variedad de pérdida cero
Descubre cómo la minimización de norma en la variedad de pérdida cero explica el fenómeno grokking: generalización tardía tras memorización.
Descubre cómo la minimización de norma en la variedad de pérdida cero explica el fenómeno grokking: generalización tardía tras memorización.