#especulativa

Decodificación especulativa: tokens más rápidos sin cambiar la respuesta

Descubre cómo la decodificación especulativa acelera los LLMs al usar un modelo pequeño para predecir tokens y uno grande para verificar, sin perder calidad.

2026-06-09 · 2 min

Decodificación Especulativa Variacional: Repensando Borradores con VSD

VSD revoluciona la decodificación especulativa: hasta 9.6% más rápido en LLMs. Aprende cómo optimizar tu entrenamiento de borradores.

2026-06-09 · 2 min

Xiaomi MiMo y TileRT: 1000 tokens por segundo en modelo de 1T

Descubre cómo Xiaomi MiMo y TileRT logran más de 1000 tokens por segundo en modelos de 1 billón de parámetros con GPUs estándar. FP4, DFlash y TileRT.

2026-06-08 · 2 min

SOLARIS: Descarga especulativa de representaciones latentes para inferencia

Descubre cómo SOLARIS acelera la inferencia de modelos fundacionales con descarga especulativa, logrando un 0.67% de aumento en ingresos en Meta.

2026-06-05 · 2 min

SSSD: Decodificación Especulativa Simple y Escalable

Descubre SSSD, un método gratuito que acelera la inferencia de LLM hasta 2.9x sin necesidad de entrenamiento ni modelos auxiliares. Robusto en cambios de idioma y contexto largo.

2026-06-04 · 2 min

SSSD: Decodificación Especulativa Simplemente Escalable

Descubre SSSD, un método de decodificación especulativa sin entrenamiento que acelera la inferencia de LLMs hasta 2.9x con menor latencia y alta robustez.

2026-06-04 · 2 min

D^2SD: Decodificación especulativa acelerada con difusión dual

Descubre cómo D^2SD acelera la inferencia de modelos de lenguaje usando dos difusores para generar y verificar tokens en paralelo, mejorando la eficiencia.

2026-06-04 · 2 min

Multi-SPIN: inferencia especulativa multiacceso para generación cooperativa de tokens en el borde

Multi-SPIN acelera la generación de tokens combinando modelos pequeños en dispositivos con LLM en servidores edge. Mejora el goodput hasta un 88%.

2026-06-04 · 1 min

KnapSpec: Decodificación Especulativa con Selección Adaptativa de Capas

KnapSpec acelera inferencia LLMs hasta 1.47x sin entrenamiento. Selecciona capas adaptativas como problema mochila. Optimiza rendimiento en secuencias.

2026-06-03 · 2 min

TreeFlash: Aproximación AR Paralela para Decodificación Especulativa más Rápida

Descubre TreeFlash: acelera la decodificación especulativa con aproximación autorregresiva paralela. Logra un 12% más de eficiencia y 9% más de velocidad.

2026-06-03 · 1 min

Predicción rápida y expresiva de múltiples bytes con circuitos probabilísticos

Descubre cómo MTPC acelera LLMs con circuitos probabilísticos, logrando rapidez y expresividad sin pérdida de calidad.

2026-06-03 · 2 min

Vegas: Decodificación Auto-Especulativa con Atención Dispersa Verificada

Descubre Vegas: acelera LLMs hasta 2.81x usando atención dispersa guiada por verificación. Sin pérdida, código abierto.

2026-06-02 · 2 min

Pérdidas LK: optimización directa de aceptación para decodificación especulativa

Optimiza la tasa de aceptación con pérdidas LK en decodificación especulativa, logrando hasta un 10% más de longitud.

2026-06-02 · 2 min

OmniOPD: Destilación On-Policy sin Logits con Verificación Especulativa

Descubre OmniOPD: destilación on-policy sin logits que mejora matemáticas +28% y supera a modelos propietarios.

2026-06-02 · 3 min

DREAM-S: Decodificación especulativa para generación multimodal

Acelera la generación multimodal con DREAM-S, un novedoso método de decodificación especulativa que alcanza 3.85x de velocidad en VLMs.

2026-06-02 · 2 min

Ghost Tool Calls: Privacidad en la Emisión para Agentes Especulativos

Descubre cómo las llamadas fantasma de agentes especulativos filtran tu intención al instante y cómo los contratos de privacidad pueden evitarlo. ¡Lee más!

2026-06-02 · 2 min

SimSD: Decodificación especulativa simple en modelos de lenguaje de difusión

Descubre SimSD: un método de decodificación especulativa para modelos de difusión que acelera la inferencia hasta 7.46x sin sacrificar calidad.

2026-06-02 · 2 min

TAPS: Selección de Prefijos Consciente del Objetivo para Decodificación Especulativa

Descubre TAPS, que acelera la decodificación especulativa hasta 7.9x con selección inteligente de árboles de prefijos. Mejora el rendimiento sin pérdidas.

2026-06-02 · 1 min

BudgetDraft: Entrenamiento Multi-Vista para Decodificación Especulativa Dispersa

Descubre BudgetDraft: entrenamiento multi-vista acelera decodificación especulativa con KV disperso hasta 6.55x en contextos de 4K a 16K, optimizando memoria.

2026-06-02 · 2 min

Decodificación Híbrida Verificada: Aprendiendo a Asignar Verificación

Acelera tus LLMs con Decodificación Híbrida Verificada. Predice aceptación de caché, elige verificación óptima. Hasta 2.73x más rápido en flujos agentivos.

2026-06-02 · 1 min