#decodificación especulativa

El futuro estructurado: decodificación especulativa de LLM difusivos

Spiffy acelera la inferencia de LLM difusivos hasta 6.3x en tasa de tokens, preservando la distribución de salida. ¡Descubre cómo!

2026-06-12 · 2 min

Enseñando a la difusión a especular de izquierda a derecha

Descubre cómo tres intervenciones mejoran la decodificación especulativa, aumentando la longitud de secuencia aceptada hasta un 76% con modelos de difusión.

2026-06-11 · 2 min

VIA-SD: Verificación jerárquica con enrutamiento intra-modelo

Descubre VIA-SD, un nuevo método de decodificación especulativa que acelera la inferencia de LLMs hasta 3x reduciendo rechazos mediante verificación jerárquica.

2026-06-11 · 2 min

Decodificación especulativa: tokens más rápidos sin cambiar la respuesta

Descubre cómo la decodificación especulativa acelera los LLMs al usar un modelo pequeño para predecir tokens y uno grande para verificar, sin perder calidad.

2026-06-09 · 2 min

Decodificación Especulativa Variacional: Repensando Borradores con VSD

VSD revoluciona la decodificación especulativa: hasta 9.6% más rápido en LLMs. Aprende cómo optimizar tu entrenamiento de borradores.

2026-06-09 · 2 min

Xiaomi MiMo y TileRT: 1000 tokens por segundo en modelo de 1T

Descubre cómo Xiaomi MiMo y TileRT logran más de 1000 tokens por segundo en modelos de 1 billón de parámetros con GPUs estándar. FP4, DFlash y TileRT.

2026-06-08 · 2 min

SSSD: Decodificación Especulativa Simple y Escalable

Descubre SSSD, un método gratuito que acelera la inferencia de LLM hasta 2.9x sin necesidad de entrenamiento ni modelos auxiliares. Robusto en cambios de idioma y contexto largo.

2026-06-04 · 2 min

SSSD: Decodificación Especulativa Simplemente Escalable

Descubre SSSD, un método de decodificación especulativa sin entrenamiento que acelera la inferencia de LLMs hasta 2.9x con menor latencia y alta robustez.

2026-06-04 · 2 min

D^2SD: Decodificación especulativa acelerada con difusión dual

Descubre cómo D^2SD acelera la inferencia de modelos de lenguaje usando dos difusores para generar y verificar tokens en paralelo, mejorando la eficiencia.

2026-06-04 · 2 min

KnapSpec: Decodificación Especulativa con Selección Adaptativa de Capas

KnapSpec acelera inferencia LLMs hasta 1.47x sin entrenamiento. Selecciona capas adaptativas como problema mochila. Optimiza rendimiento en secuencias.

2026-06-03 · 2 min

TreeFlash: Aproximación AR Paralela para Decodificación Especulativa más Rápida

Descubre TreeFlash: acelera la decodificación especulativa con aproximación autorregresiva paralela. Logra un 12% más de eficiencia y 9% más de velocidad.

2026-06-03 · 1 min

Predicción rápida y expresiva de múltiples bytes con circuitos probabilísticos

Descubre cómo MTPC acelera LLMs con circuitos probabilísticos, logrando rapidez y expresividad sin pérdida de calidad.

2026-06-03 · 2 min

Pérdidas LK: optimización directa de aceptación para decodificación especulativa

Optimiza la tasa de aceptación con pérdidas LK en decodificación especulativa, logrando hasta un 10% más de longitud.

2026-06-02 · 2 min

DREAM-S: Decodificación especulativa para generación multimodal

Acelera la generación multimodal con DREAM-S, un novedoso método de decodificación especulativa que alcanza 3.85x de velocidad en VLMs.

2026-06-02 · 2 min

SimSD: Decodificación especulativa simple en modelos de lenguaje de difusión

Descubre SimSD: un método de decodificación especulativa para modelos de difusión que acelera la inferencia hasta 7.46x sin sacrificar calidad.

2026-06-02 · 2 min

TAPS: Selección de Prefijos Consciente del Objetivo para Decodificación Especulativa

Descubre TAPS, que acelera la decodificación especulativa hasta 7.9x con selección inteligente de árboles de prefijos. Mejora el rendimiento sin pérdidas.

2026-06-02 · 1 min

BudgetDraft: Entrenamiento Multi-Vista para Decodificación Especulativa Dispersa

Descubre BudgetDraft: entrenamiento multi-vista acelera decodificación especulativa con KV disperso hasta 6.55x en contextos de 4K a 16K, optimizando memoria.

2026-06-02 · 2 min

Decodificación Híbrida Verificada: Aprendiendo a Asignar Verificación

Acelera tus LLMs con Decodificación Híbrida Verificada. Predice aceptación de caché, elige verificación óptima. Hasta 2.73x más rápido en flujos agentivos.

2026-06-02 · 1 min

SENSE: Decodificación Especulativa con Incrustaciones Semánticas

Descubre SENSE: acelera inferencia de LLMs hasta 3.26x usando embeddings semánticos, sin perder calidad. Ideal para desarrolladores.

2026-06-02 · 2 min

Decodificación especulativa para múltiples idiomas

Descubre cómo mejorar la decodificación especulativa en idiomas no ingleses. Comparamos fine-tuning y modelos n-grama para acelerar la generación de texto multilingüe.

2026-06-01 · 2 min