Decaimiento de bajo rango para grokking en transformers invariantes a escala
Descubre cómo el decaimiento de bajo rango (LRD) acelera el grokking en transformers invariantes a escala, comprimiendo valores singulares.
Descubre cómo el decaimiento de bajo rango (LRD) acelera el grokking en transformers invariantes a escala, comprimiendo valores singulares.