#decodificación

AXON: revelación de tokens de apoyo para decodificación rápida

AXON es un módulo sin entrenamiento que optimiza la decodificación paralela en modelos de difusión, reduciendo evaluaciones y mejorando precisión.

2026-06-04 · 2 min

Revelación de tokens de apoyo para decodificación rápida en modelos de difusión

Descubre AXON, un módulo que mejora la decodificación en modelos de difusión al revelar tokens de apoyo, reduciendo pasos y manteniendo precisión. Optimiza el equilibrio entre calidad y latencia.

2026-06-04 · 2 min

SSSD: Decodificación Especulativa Simple y Escalable

Descubre SSSD, un método gratuito que acelera la inferencia de LLM hasta 2.9x sin necesidad de entrenamiento ni modelos auxiliares. Robusto en cambios de idioma y contexto largo.

2026-06-04 · 2 min

SSSD: Decodificación Especulativa Simplemente Escalable

Descubre SSSD, un método de decodificación especulativa sin entrenamiento que acelera la inferencia de LLMs hasta 2.9x con menor latencia y alta robustez.

2026-06-04 · 2 min

D^2SD: Decodificación especulativa acelerada con difusión dual

Descubre cómo D^2SD acelera la inferencia de modelos de lenguaje usando dos difusores para generar y verificar tokens en paralelo, mejorando la eficiencia.

2026-06-04 · 2 min

Planificar, Verificar y Completar: Decodificación Paralela en Modelos de Difusión

Descubre PVF, un nuevo método de decodificación paralela para modelos de difusión que reduce hasta un 65% las evaluaciones de función sin perder precisión.

2026-06-03 · 1 min

KnapSpec: Decodificación Especulativa con Selección Adaptativa de Capas

KnapSpec acelera inferencia LLMs hasta 1.47x sin entrenamiento. Selecciona capas adaptativas como problema mochila. Optimiza rendimiento en secuencias.

2026-06-03 · 2 min

TreeFlash: Aproximación AR Paralela para Decodificación Especulativa más Rápida

Descubre TreeFlash: acelera la decodificación especulativa con aproximación autorregresiva paralela. Logra un 12% más de eficiencia y 9% más de velocidad.

2026-06-03 · 1 min

SEAOTTER: Autoencoder de sensores para reconstrucción eficiente

Descubre SEAOTTER, un innovador framework de compresión para robótica en la nube que combina autoencoders con JPEG, logrando 200:1 de compresión y 7x más velocidad que AVIF.

2026-06-03 · 2 min

Predicción rápida y expresiva de múltiples bytes con circuitos probabilísticos

Descubre cómo MTPC acelera LLMs con circuitos probabilísticos, logrando rapidez y expresividad sin pérdida de calidad.

2026-06-03 · 2 min

Fast-dLLM++: Perfil Fréchet para Inferencia más Rápida de LLM Difusión

Fast-dLLM++ acelera inferencia de LLM difusivos sin modificar modelo, aprovechando confianza heterogénea para lograr 37% más rendimiento sin perder precisión.

2026-06-03 · 2 min

No seas tan Stief: optimización de KV Cache en la variedad de Stiefel

Descubre cómo StiefAttention comprime el caché KV con aproximación de rango bajo en la variedad de Stiefel, mejorando precisión y eficiencia en modelos de lenguaje.

2026-06-03 · 2 min