Poda estructurada vs no estructurada: una brecha exponencial
Un estudio revela que la poda de neuronas requiere exponencialmente más neuronas iniciales que la poda de pesos, una brecha sorprendente en el SLTH.
Un estudio revela que la poda de neuronas requiere exponencialmente más neuronas iniciales que la poda de pesos, una brecha sorprendente en el SLTH.
¿Cuántos bloques necesita un STGCN? Un solo bloque predice tráfico con precisión similar y 61% menos latencia que el estándar de 2 bloques. Eficiencia para ITS.
Descubre cómo GD y SGD alcanzan tasas óptimas de generalización en redes ReLU profundas, con resultados minimax comparables a kernels.
Descubre cómo la mayoría de los interpoladores lineales tienen un rendimiento similar, y por qué algunos métodos superan al resto en inteligencia artificial.
Analizamos la conexión entre la Ley de Robustez y la generalización robusta. ¿Cómo afecta el orden de las cotas de Lipschitz a la complejidad de Rademacher? Descúbrelo.
Descubre cómo se caracterizan los mínimos locales en redes ReLU de dos capas y cómo la sobreparametrización facilita el acceso a mínimos globales.
Nuevas cotas de generalización para algoritmos Monte Carlo en el régimen de interpolación, con resultados en MNIST, CIFAR-10 y SVHN.
Descubre cómo la regularización óptima reduce el riesgo en aprendizaje performativo, beneficiándose incluso en regímenes sobreparametrizados. Clave para IA robusta.
Descubre cómo los métodos de gradiente logran convergencia lineal en mezclas gaussianas sobreparametrizadas, superando la lentitud tradicional. Leer más.