Diferentes capas, diferentes variedades: geometría del espacio de pesos en transformers Descubre cómo la asignación específica de geometría de pesos (Stiefel en atención, DGram en MLP) mejora la optimización de transformers. Resultados con GPT-2. 2026-06-12 · 2 min