#bloques

MiniMax Sparse Attention: eficiencia en contexto largo

Descubre cómo MiniMax Sparse Attention (MSA) reduce 28.4 veces el cómputo de atención en contextos de 1M tokens, logrando aceleraciones de hasta 14.2x en prefill y 7.6x en decoding en GPUs H800.

2026-06-12 · 2 min

BASENet: Red de mejora de voz adaptada por bandas con atención entre bandas

Descubre BASENet, una red de mejora de voz que alcanza 3.55 PESQ con solo 0.83M parámetros, ideal para streaming en dispositivos limitados.

2026-06-12 · 2 min

Acelerando difusiones especulativas con verificación por bloques

Descubre cómo la verificación por bloques acelera las difusiones especulativas hasta un 6.3% sin entrenamiento adicional. Optimiza inferencia de modelos de IA.

2026-06-12 · 2 min

Agentes hasta el fondo: metodología para construir agentes IA

Metodología 'Agentes hasta el fondo' para construir agentes AI personalizados. Aprende prototype, harvest y agent-tests-agent. Ideal para desarrolladores.

2026-06-11 · 3 min

DiffusionGemma: Guía del Desarrollador

Descubre DiffusionGemma, el modelo de texto por difusión que genera bloques de 256 tokens en paralelo. Más rápido, bidireccional y ajustable en GPUs de consumo. Ideal para desarrolladores.

2026-06-10 · 2 min

WAV: Enrutamiento Residual de Bloques Multirresolución en Transformers

Mejora el rendimiento de transformers profundos con WAV v1: routing residual multirresolución que reduce pérdida en 48 capas.

2026-06-08 · 3 min

SERNF: Ajuste eficiente de políticas diestras con flujos normalizantes

SERNF: ajuste fino eficiente de políticas diestras en robótica real. Usa flujos normalizantes y críticos por bloques para adaptación estable con pocas muestras.

2026-06-08 · 3 min

MAGE: El bloque All-[MASK] sabe dónde mirar en difusión por bloques LLM

Con MAGE, la atención dispersa acelera hasta 6.82x la inferencia en contexto largo sin pérdida de precisión.

2026-06-08 · 2 min

Compresión aprendida de alta fidelidad: modelado de residuos

Descubre cómo el modelado de residuos mejora la compresión de datos científicos un 30-60%. LBRC y NGLR para alta fidelidad.

2026-06-06 · 2 min

Límites inferiores de primer orden en optimización no convexa suave alto orden

Nuevos límites inferiores de primer orden para optimización no convexa suave de alto orden. Resultados óptimos para Hessianas y terceras derivadas Lipschitz.

2026-06-05 · 2 min

QuBLAST: Cuantización con Compresión por Bloques y Escalado de Activaciones

Descubre QuBLAST, un framework que reduce el tamaño de LLMs hasta un 45% mediante cuantización por bloques y escalado de activaciones, sin perder rendimiento.

2026-06-04 · 3 min

Recuperación parcial y consistencia débil en HSBM no uniforme

Descubre cómo un nuevo algoritmo espectral logra recuperación parcial y consistencia débil en el modelo HSBM no uniforme para detección de comunidades en hipergrafos.

2026-06-03 · 2 min

Recuperación exacta en hipergrafos: modelo de bloques estocástico

Descubre cómo recuperar comunidades exactas en hipergrafos no uniformes con algoritmos óptimos. Un umbral preciso incluso si las capas individuales fallan.

2026-06-03 · 3 min

DECA: Descentralizando el Ajuste Fino Completo de LLMs

Descubre DECA, el ajuste fino completo descentralizado para LLMs con Adam por bloques y datos no IID.

2026-06-03 · 1 min

DECA: Ajuste Fino Completo Descentralizado de LLMs en Datos No IID

Descubre DECA: ajuste fino completo descentralizado de LLMs en datos no IID. Eficiente y rápido. ¡Infórmate!

2026-06-03 · 2 min

Desmitificando el paralelismo de pipelines: teoría para PipeDream

Descubre cómo PipeDream logra convergencia en entrenamiento distribuido con un nuevo análisis teórico no convexo. Comparativa con LocalSGD.

2026-06-03 · 2 min

TreeFlash: Aproximación AR Paralela para Decodificación Especulativa más Rápida

Descubre TreeFlash: acelera la decodificación especulativa con aproximación autorregresiva paralela. Logra un 12% más de eficiencia y 9% más de velocidad.

2026-06-03 · 1 min

ParaBlock: Aprendizaje Federado con Bloques Coordinados en Paralelo

Descubre ParaBlock: una técnica innovadora que acelera el aprendizaje federado de grandes modelos de lenguaje al paralelizar comunicación y computación, manteniendo el rendimiento.

2026-06-03 · 2 min