Cuando el parche de atribución miente: diagnóstico y corrección de segundo orden
Corrección de segundo orden para parches de atribución: mejora la fiabilidad en modelos de lenguaje.
Corrección de segundo orden para parches de atribución: mejora la fiabilidad en modelos de lenguaje.
Descubre cómo N-RSAV acelera optimización SAV con Hessiana, logrando convergencia rápida en problemas mal condicionados como PINNs.
N-RSAV acelera la optimización SAV con Hessiana de bajo rango aleatoria. Logra convergencia más rápida en PINNs y problemas mal condicionados.
Descubre cómo la transformada Neural de Legendre-Fenchel con precondicionamiento Hessiano mejora la precisión y convergencia en funciones mal condicionadas.
Descubre cómo el ruido del SGD se relaciona con la curvatura del paisaje de pérdida en deep learning. Nuevas leyes empíricas para capas fully connected.
Descubre cómo el descenso de gradiente con pasos grandes opera en el borde de estabilidad, logrando convergencia no monótona y mejorando la generalización.
Nuevos límites inferiores de primer orden para optimización no convexa suave de alto orden. Resultados óptimos para Hessianas y terceras derivadas Lipschitz.
Descubre YAQA, el algoritmo de redondeo adaptativo que reduce el error de cuantización un 30% sin sobrecarga. Preserva la distribución del modelo original.
La planitud mínima de los interpoladores garantiza la generalización en modelos multi-índice con redes homogéneas.
Descubre cómo los interpoladores más planos siempre generalizan en redes neuronales homogéneas, según un nuevo estudio sobre modelos multi-índice.
Descubre cómo el borde de estabilidad redistribuye el aprendizaje entre grupos de datos, beneficiando a unos y suprimiendo a otros.
Descubre cómo la geometría de mesetas estacionarias en redes de dos capas revela si el desdoblamiento de neuronas produce mínimos locales o puntos de silla.
Descubre cómo HARC corrige la ruptura de enrutamiento en MoE fusionados sin entrenamiento, usando curvatura hessiana. Ideal para razonamiento y código.
Descubre cómo la curvatura de la pérdida en redes neuronales varía según la arquitectura. Una descomposición exacta revela la relación entre Hessiano y gradient
Descubre cómo la supervisión de segundo orden mejora el aprendizaje de sistemas caóticos, preservando atractores con bajo costo computacional.
Descubre cómo las simetrías en el espacio de pesos facilitan la estimación de la curvatura en redes neuronales, mejorando la optimización y reduciendo costos computacionales.
Descubre cómo el nuevo método IAM usa la inconsistencia local para mejorar la generalización en modelos de deep learning, incluso sin etiquetas. Optimiza tu entrenamiento.