#relu

Caracterizando la geometría discreta de las redes ReLU

Las redes ReLU generan regiones lineales. El grado promedio de su grafo está acotado por el doble de la dimensión de entrada y su diámetro es independiente.

2026-06-09 · 2 min

Dinámica del aprendizaje revela jerarquía de métricas Gram inducidas por pesos

Descubre cómo la dinámica de aprendizaje revela una jerarquía de métricas Gram inducidas por pesos en redes ReLU. Optimiza tu entrenamiento profundo.

2026-06-09 · 2 min

Generalización en Mínimos Cuadrados No Lineales vía Geometría Aprendida

Aprende cómo la geometría de características aprendidas mejora la generalización en mínimos cuadrados no lineales, reduciendo la dependencia de parámetros.

2026-06-09 · 2 min

SmartMixed: Estrategia en dos fases para funciones de activación adaptativas

SmartMixed: una estrategia en dos fases para que cada neurona aprenda su función de activación óptima. Mejora eficiencia y rendimiento en redes neuronales.

2026-06-09 · 3 min

Tasas óptimas de generalización en descenso de gradiente con redes profundas

Descubre cómo GD y SGD alcanzan tasas óptimas de generalización en redes ReLU profundas, con resultados minimax comparables a kernels.

2026-06-08 · 2 min

La arquitectura moldea la transferencia en redes neuronales implícitas

Descubre cómo SIREN, ReLU y Fourier-Features afectan la especificidad de transferencia en redes neuronales implícitas.

2026-06-08 · 2 min

Cómo la arquitectura define la transferencia en redes implícitas

Descubre cómo la arquitectura afecta la transferencia en redes implícitas. Estudio comparativo de SIREN, ReLU y Fourier para modelos científicos.

2026-06-08 · 3 min

Mitigando la maldición de la dimensionalidad con activaciones suaves

Aprende cómo las redes neuronales con activaciones suaves mitigan la maldición de la dimensionalidad, garantizando convergencia uniforme y robustez en regresión. ¡Entra!

2026-06-05 · 1 min

Descifrando dos relojes de entrenamiento en Grokking

Cómo el fenómeno Grokking separa el ajuste de datos de la simplificación de representaciones con dos relojes de entrenamiento. Teoría de redes lineales y ReLU.

2026-06-05 · 2 min

Entrenamiento condicionado por camino para reescalar redes ReLU

Descubre cómo entrenamiento condicionado por camino reescala redes ReLU para acelerar aprendizaje. Enfoque geométrico optimiza kernels y mejora inicialización.

2026-06-04 · 2 min

Entrenamiento conjunto de capas en redes ReLU para modelos lineales

Aprende cómo el descenso de gradiente logra convergencia lineal en redes ReLU, evitando puntos silla y alcanzando el mínimo global.

2026-06-04 · 2 min

Inicialización Óptima en Redes Profundas: Lyapunov y Leaky ReLU

Descubre la inicialización Lyapunov para redes Leaky ReLU: cómo lograr estabilidad en activaciones y mejorar el aprendizaje en redes profundas.

2026-06-03 · 2 min

Aproximación cuantitativa para destilación de flujo en difusión

Nuevo marco de aproximación cuantitativa mejora la destilación de flujo en difusión, reduciendo errores hasta 51.9% con particiones no uniformes.

2026-06-03 · 2 min

Generación de medidas rectificables con redes neuronales

Descubre cómo las redes neuronales ReLU aproximan medidas rectificables con error mínimo en distancia de Wasserstein, mejorando tasas según el parámetro m.

2026-06-03 · 2 min

Tasas óptimas de generalización del descenso de gradiente en clasificación ReLU profunda

Descubre cómo el descenso de gradiente logra tasas de generalización óptimas en redes ReLU profundas con dependencia polinomial de la profundidad, mejorando resultados previos.

2026-06-03 · 2 min

Más allá de ReLU: Bifurcación, Sobresuavizado y Prioridades Topológicas

Nueva teoría de bifurcación revela que reemplazar ReLU por activaciones no monótonas evita el sobresuavizado en GNNs profundas. ¡Descubre la solución!

2026-06-03 · 2 min

Mínimos locales en redes ReLU de dos capas: un análisis preciso

Descubre cómo se caracterizan los mínimos locales en redes ReLU de dos capas y cómo la sobreparametrización facilita el acceso a mínimos globales.

2026-06-03 · 3 min

Aproximación con Redes Neuronales Multigrado

Descubre cómo el enfoque Multigrade Deep Learning permite entrenar redes profundas por grados, reduciendo errores residuales y garantizando convergencia uniforme en arquitecturas ReLU.

2026-06-02 · 2 min

CART: Transformer Recurrento Eficiente con Estabilidad Aprendida

CART es un transformer recurrente que reduce parámetros al reutilizar un bloque central. Con estabilidad aprendida vía puerta LTI, ofrece resultados competitivos en GPU de consumo.

2026-06-02 · 2 min

Inferencia Bayesiana con MLPs Profundos No Lineales

Descubre cómo la inferencia bayesiana en MLPs profundos no lineales se simplifica a un método kernel y cómo la profundidad mejora la evidencia del modelo. Una nueva perspectiva teórica.

2026-06-01 · 3 min