Decodificación especulativa: tokens más rápidos sin cambiar la respuesta
Descubre cómo la decodificación especulativa acelera los LLMs al usar un modelo pequeño para predecir tokens y uno grande para verificar, sin perder calidad.
Descubre cómo la decodificación especulativa acelera los LLMs al usar un modelo pequeño para predecir tokens y uno grande para verificar, sin perder calidad.
VSD revoluciona la decodificación especulativa: hasta 9.6% más rápido en LLMs. Aprende cómo optimizar tu entrenamiento de borradores.
Descubre cómo Xiaomi MiMo y TileRT logran más de 1000 tokens por segundo en modelos de 1 billón de parámetros con GPUs estándar. FP4, DFlash y TileRT.
Descubre cómo SOLARIS acelera la inferencia de modelos fundacionales con descarga especulativa, logrando un 0.67% de aumento en ingresos en Meta.
Descubre SSSD, un método gratuito que acelera la inferencia de LLM hasta 2.9x sin necesidad de entrenamiento ni modelos auxiliares. Robusto en cambios de idioma y contexto largo.
Descubre SSSD, un método de decodificación especulativa sin entrenamiento que acelera la inferencia de LLMs hasta 2.9x con menor latencia y alta robustez.
Descubre cómo D^2SD acelera la inferencia de modelos de lenguaje usando dos difusores para generar y verificar tokens en paralelo, mejorando la eficiencia.
Multi-SPIN acelera la generación de tokens combinando modelos pequeños en dispositivos con LLM en servidores edge. Mejora el goodput hasta un 88%.
KnapSpec acelera inferencia LLMs hasta 1.47x sin entrenamiento. Selecciona capas adaptativas como problema mochila. Optimiza rendimiento en secuencias.
Descubre TreeFlash: acelera la decodificación especulativa con aproximación autorregresiva paralela. Logra un 12% más de eficiencia y 9% más de velocidad.
Descubre cómo MTPC acelera LLMs con circuitos probabilísticos, logrando rapidez y expresividad sin pérdida de calidad.
Descubre Vegas: acelera LLMs hasta 2.81x usando atención dispersa guiada por verificación. Sin pérdida, código abierto.
Optimiza la tasa de aceptación con pérdidas LK en decodificación especulativa, logrando hasta un 10% más de longitud.
Descubre OmniOPD: destilación on-policy sin logits que mejora matemáticas +28% y supera a modelos propietarios.
Acelera la generación multimodal con DREAM-S, un novedoso método de decodificación especulativa que alcanza 3.85x de velocidad en VLMs.
Descubre cómo las llamadas fantasma de agentes especulativos filtran tu intención al instante y cómo los contratos de privacidad pueden evitarlo. ¡Lee más!
Descubre SimSD: un método de decodificación especulativa para modelos de difusión que acelera la inferencia hasta 7.46x sin sacrificar calidad.
Descubre TAPS, que acelera la decodificación especulativa hasta 7.9x con selección inteligente de árboles de prefijos. Mejora el rendimiento sin pérdidas.
Descubre BudgetDraft: entrenamiento multi-vista acelera decodificación especulativa con KV disperso hasta 6.55x en contextos de 4K a 16K, optimizando memoria.
Acelera tus LLMs con Decodificación Híbrida Verificada. Predice aceptación de caché, elige verificación óptima. Hasta 2.73x más rápido en flujos agentivos.