#dientes

ArrowFlow: Aprendizaje automático jerárquico en el espacio de permutaciones

ArrowFlow: modelo de aprendizaje automático en permutaciones sin parámetros flotantes. Competitivo, robusto al ruido, ideal para hardware neuromórfico.

2026-06-03 · 3 min

MCMC sin evaluar el objetivo: enfoque de variable auxiliar

Descubre cómo un nuevo marco unifica y mejora algoritmos MCMC usando variables auxiliares, sin necesidad de evaluar la distribución objetivo. Mejor rendimiento en datos sintéticos y reales.

2026-06-03 · 2 min

La codicia es buena: perspectiva unificadora de generación guiada

Descubre cómo la perspectiva codiciosa unifica dos técnicas de guía en generación. Ahorra cómputo sin perder precisión. Ideal para modelos de difusión.

2026-06-03 · 2 min

Desmitificando el paralelismo de pipelines: teoría para PipeDream

Descubre cómo PipeDream logra convergencia en entrenamiento distribuido con un nuevo análisis teórico no convexo. Comparativa con LocalSGD.

2026-06-03 · 2 min

Reveal-IG: Atribución por caminos distribucionales

Reveal-IG: atribución basada en caminos distribucionales. Atribuciones estables con signo sin artefactos. Ideal para explicabilidad en IA.

2026-06-03 · 2 min

MAdam: Adam multiobjetivo con métrica consciente

MAdam: el drop-in wrapper que mejora Adam en optimización multiobjetivo. Corrige sesgos de ponderación y geometría. ¡Conócelo!

2026-06-03 · 2 min

Procesos Gaussianos Derivativos Escalables con Reducción Exacta de Gradientes

Descubre TERA, un método que acelera procesos Gaussianos derivativos en altas dimensiones sin perder precisión. Ideal para simulaciones costosas.

2026-06-03 · 3 min

MuLoCo: Muon como optimizador interno práctico para DiLoCo

Descubre MuLoCo, el optimizador con Muon que supera a DiLoCo, permite mayores batch sizes y mejor escalabilidad en entrenamiento de modelos de lenguaje.

2026-06-03 · 2 min

Cuantificación de incertidumbre escalable en pronóstico de clima extremo con NTK

Mejora la predicción de clima extremo con NTK-UQ: intervalos 31-37% más precisos, adaptativos y sin reentrenamiento.

2026-06-03 · 2 min

Backpropagación Estructurada Eficiente en Memoria para Ajuste Fino de LLM

Descubre MeSP: reduce un 49% la memoria al ajustar LLMs en dispositivos, con gradientes exactos. Ideal para entrenamiento privado.

2026-06-03 · 2 min

Familia flexible de actualizaciones de descenso espejo con entropías de grupo

Descubre cómo las entropías de grupo y la dualidad espejo crean una familia flexible de actualizaciones de descenso espejo para optimizar modelos de ML con mayor adaptabilidad y convergencia.

2026-06-03 · 3 min

Gradientes estocásticos bajo parámetros nuisance

Cómo los gradientes estocásticos convergen con parámetros nuisance. Ortogonalidad de Neyman y actualizaciones ortogonalizadas para optimización robusta.

2026-06-03 · 2 min

Guía del autoestopista: estimación de gradientes Poisson

Descubre cómo estimar gradientes Poisson sin sesgo con el método EAT modificado. Comparativa con Gumbel-Softmax para VAEs y modelos de inferencia neuronal.

2026-06-03 · 2 min

CORE-MTL: Repensando el equilibrio de gradientes con representaciones causales ortogonales

Descubre CORE-MTL, el nuevo enfoque de representaciones causales ortogonales que mejora la generalización en aprendizaje multitarea, reduce interferencias y supera métodos existentes.

2026-06-02 · 2 min

Redes Neuronales Recurrentes Guiadas por Física para Predicción Multietapa

Descubre cómo las redes neuronales recurrentes guiadas por física mejoran la predicción multietapa, incluso con datos limitados y modelos imperfectos.

2026-06-02 · 2 min

Paso Polyak estocástico protegido para optimización no suave

Nuevo método SPS protegido para optimización no suave en redes neuronales. Convergencia robusta sin gradientes pequeños. ¡Mejora tu entrenamiento!

2026-06-02 · 1 min

Descubrimiento de Componentes Independientes en Datos de Conteo Temporal

Un nuevo modelo generativo identifica componentes independientes en datos de conteo temporal con cambios de régimen. Aplicaciones en microbioma y clima.

2026-06-02 · 3 min

Más allá de lo discreto: complejidad muestral del STE en cuantización 1-bit

Primer análisis teórico de complejidad muestral del Straight-Through Estimator para cuantización 1-bit. Descubre por qué el tamaño de muestra es clave para su éxito.

2026-06-02 · 2 min

Quartet II: Pre-entrenamiento de LLMs en NVFP4

Descubre Quartet II, el método que optimiza el pre-entrenamiento de LLMs en formato NVFP4 en GPUs Blackwell. Mayor precisión y velocidad en tus modelos.

2026-06-02 · 2 min

Preservación de privacidad contra inversión de gradientes en FL tabular

Protege tu privacidad en aprendizaje federado tabular. Vemos cómo los ataques de inversión de gradientes revelan datos. Descubre factores clave de riesgo.

2026-06-02 · 2 min