#hessian

Cuando el parche de atribución miente: diagnóstico y corrección de segundo orden

Corrección de segundo orden para parches de atribución: mejora la fiabilidad en modelos de lenguaje.

2026-06-10 · 1 min

Optimización SAV acelerada con Hessiana de bajo rango aleatoria

Descubre cómo N-RSAV acelera optimización SAV con Hessiana, logrando convergencia rápida en problemas mal condicionados como PINNs.

2026-06-10 · 3 min

Acelerando optimización SAV con Hessiana de bajo rango aleatorizada

N-RSAV acelera la optimización SAV con Hessiana de bajo rango aleatoria. Logra convergencia más rápida en PINNs y problemas mal condicionados.

2026-06-10 · 1 min

Transformada Neural de Legendre-Fenchel con Precondicionamiento Hessiano

Descubre cómo la transformada Neural de Legendre-Fenchel con precondicionamiento Hessiano mejora la precisión y convergencia en funciones mal condicionadas.

2026-06-09 · 1 min

La relación superlineal entre ruido SGD y curvatura

Descubre cómo el ruido del SGD se relaciona con la curvatura del paisaje de pérdida en deep learning. Nuevas leyes empíricas para capas fully connected.

2026-06-09 · 2 min

Flatland: Las aventuras del descenso de gradiente con pasos grandes

Descubre cómo el descenso de gradiente con pasos grandes opera en el borde de estabilidad, logrando convergencia no monótona y mejorando la generalización.

2026-06-08 · 2 min

Límites inferiores de primer orden en optimización no convexa suave alto orden

Nuevos límites inferiores de primer orden para optimización no convexa suave de alto orden. Resultados óptimos para Hessianas y terceras derivadas Lipschitz.

2026-06-05 · 2 min

Redondeo Adaptativo que Preserva el Modelo

Descubre YAQA, el algoritmo de redondeo adaptativo que reduce el error de cuantización un 30% sin sobrecarga. Preserva la distribución del modelo original.

2026-06-04 · 1 min

Aprendiendo Modelos Multi-Índice: Planitud y Generalización en Redes Homogéneas

La planitud mínima de los interpoladores garantiza la generalización en modelos multi-índice con redes homogéneas.

2026-06-04 · 2 min

Aplanamiento y generalización en redes neuronales homogéneas

Descubre cómo los interpoladores más planos siempre generalizan en redes neuronales homogéneas, según un nuevo estudio sobre modelos multi-índice.

2026-06-04 · 2 min

El borde de estabilidad modela selectivamente el aprendizaje en la distribución

Descubre cómo el borde de estabilidad redistribuye el aprendizaje entre grupos de datos, beneficiando a unos y suprimiendo a otros.

2026-06-04 · 2 min

Caracterización geométrica de la meseta estacionaria en redes de dos capas

Descubre cómo la geometría de mesetas estacionarias en redes de dos capas revela si el desdoblamiento de neuronas produce mínimos locales o puntos de silla.

2026-06-04 · 2 min

Calibración sin entrenamiento para MoE: evitando ruptura de enrutamiento

Descubre cómo HARC corrige la ruptura de enrutamiento en MoE fusionados sin entrenamiento, usando curvatura hessiana. Ideal para razonamiento y código.

2026-06-03 · 2 min

Espectro asintótico en pérdida de redes neuronales: descomposición del exponente de curvatura

Descubre cómo la curvatura de la pérdida en redes neuronales varía según la arquitectura. Una descomposición exacta revela la relación entre Hessiano y gradient

2026-06-03 · 4 min

Aprendiendo dinámicas caóticas mediante supervisión geométrica de segundo orden

Descubre cómo la supervisión de segundo orden mejora el aprendizaje de sistemas caóticos, preservando atractores con bajo costo computacional.

2026-06-02 · 2 min

Explotando simetrías del espacio de pesos para aproximar curvatura

Descubre cómo las simetrías en el espacio de pesos facilitan la estimación de la curvatura en redes neuronales, mejorando la optimización y reduciendo costos computacionales.

2026-06-02 · 2 min

Minimización con Conciencia de Inconsistencia para Mejorar la Generalización

Descubre cómo el nuevo método IAM usa la inconsistencia local para mejorar la generalización en modelos de deep learning, incluso sin etiquetas. Optimiza tu entrenamiento.

2026-06-01 · 2 min