Leyes de conservación para arquitecturas neuronales modernas
Descubre el marco unificado que revela invariantes en gradiente descendente para arquitecturas modernas (GELU, SiLU, SwiGLU, MoE). Validado experimentalmente.
Descubre el marco unificado que revela invariantes en gradiente descendente para arquitecturas modernas (GELU, SiLU, SwiGLU, MoE). Validado experimentalmente.
Descubre cómo la proyección de modelos permite heredar propiedades entre redes feedforward y convolucionales, logrando transfer learning eficiente y competitivo con ImageNet.