#ode · DeepCodeNews

David vs. Goliat: Argmax contra LSTM, Transformer y LLM

¿Puede un simple conteo superar a LSTM, Transformer y LLM? Nuestro benchmark revela resultados sorprendentes.

2026-06-16 · 2 min

Cómo seleccionar expertos para poda MoE: formulación unificada

¿Quieres reducir memoria en modelos MoE sin perder rendimiento? Descubre un principio de selección unificado que mejora hasta 8.8 puntos en benchmarks.

2026-06-16 · 2 min

Aprendizaje no supervisado para modalidades faltantes en aprendizaje multimodal

Descubre cómo UL4M4 imputa embeddings faltantes en aprendizaje multimodal mediante clustering no supervisado, logrando F1 >0.7 incluso con >50% de datos

2026-06-16 · 1 min

Redes Bayesianas con incrustación temporal latente para modelado causal de la progresión del Alzheimer

Las redes bayesianas con incrustación temporal latente (BN-LTE) modelan la progresión del Alzheimer y detectan ventanas de sensibilidad amiloide.

2026-06-16 · 2 min

Decodificación paralela de campo medio para modelos de difusión

Mejora la eficiencia de modelos de difusión discretos con decodificación paralela de campo medio. Coordina actualizaciones para generar más tokens por paso sin

2026-06-16 · 2 min

David vs Goliat: Argmax supera a LSTM, Transformer y LLMs

¿Un simple contador supera a modelos de IA? Este benchmark revela que argmax iguala o supera a LSTM, Transformer y LLMs.

2026-06-16 · 2 min

Aprendizaje por refuerzo para pronóstico de eventos con LLMs

Descubre cómo GRPO entrena LLMs para predecir eventos reales, logrando que un modelo de 1.5B supere a Claude Sonnet 3.5. Resultados sorprendentes.

2026-06-16 · 2 min

Rastreo de circuitos en modelos de lenguaje de proteínas autoregresivos

Aprende cómo ProGenMech descubre circuitos neuronales en modelos de proteínas para mejorar la generación y predicción de fitness.

2026-06-16 · 3 min

Más allá del análisis de sangre: ML explicable para disglucemia

Aprende cómo el Machine Learning explicable detecta el riesgo de disglucemia sin análisis de sangre. Modelo LightGBM supera a pruebas clínicas tradicionales.

2026-06-16 · 2 min

Parada Adaptativa en Muestreo con Clasificadores

Descubre cómo detener el muestreador de forma inteligente usando clasificadores neuronales para acelerar MCMC sin perder precisión. ¡Entra!

2026-06-16 · 3 min

Auditoría de desaprendizaje automático: ¿realmente olvidan?

Descubre un marco de auditoría para comprobar si los modelos de IA realmente olvidan datos. Verifica el desaprendizaje sin reentrenar.

2026-06-16 · 3 min

Predicción de parámetros de ejecución con aprendizaje activo y generativo

Predice parámetros de ejecución en química computacional con aprendizaje activo y generativo. Modelos alcanzan 99.9% de precisión.

2026-06-16 · 2 min

Modelado de Recompensas Evolutivo Bilevel para Generalización en RL

Descubre cómo GERS mejora la generalización en RL usando solo métricas escalares, superando a métodos tradicionales en entornos no vistos.

2026-06-16 · 2 min

QK-Normed MLA: normalización sin almacenar claves completas

Descubre cómo la normalización QK en MLA mejora estabilidad y eficiencia: menor pérdida, mayor precisión y menos de 2% de latencia extra en decodificación.

2026-06-16 · 2 min

RL offline con difusión para redes UAV eficientes y justas

Aprendizaje por refuerzo offline con difusión para redes UAV justas y eficientes. Reduce energía, mejora equidad y aumenta throughput un 35%.

2026-06-16 · 2 min

CacheMuon: Precondicionamiento Temporal para Aproximar el Factor Polar

CacheMuon acelera el entrenamiento al reutilizar información previa para aproximar el factor polar, reduciendo costos sin perder precisión. Descubre cómo.

2026-06-16 · 2 min

Entrenamiento Paralelo Eficiente en Ancho de Banda con Mezclas de Subespacios

Descubre cómo mezclas de subespacios comprimen la comunicación un 95% para entrenar modelos de lenguaje con contextos de 100K tokens, incluso en redes lentas.

2026-06-16 · 2 min

Factorización Neural Tucker con Corrección de Sesgo y Inicialización Adaptativa

Descubre KaBiN: modelo de factorización Tucker con corrección de sesgo e inicialización Kaiming para completar tensores HDI. Mejora precisión sin sobrecarga.

2026-06-16 · 1 min

MUNI: Difusión Latente Multimodal Unificada para Generación Any-to-Any

MUNI: marco de difusión latente multimodal para generación any-to-any coherente. Supera modelos basados en LLM con enfoque unificado.

2026-06-16 · 2 min

Taylor-Calibrate: Inicialización para destilación de atención lineal híbrida

Descubre cómo Taylor-Calibrate inicializa modelos de atención híbrida con 88x mejora y reduce tokens de entrenamiento 9.2x. Optimiza tus Transformers.

2026-06-16 · 2 min