El futuro estructurado: decodificación especulativa de LLM difusivos
Spiffy acelera la inferencia de LLM difusivos hasta 6.3x en tasa de tokens, preservando la distribución de salida. ¡Descubre cómo!
Spiffy acelera la inferencia de LLM difusivos hasta 6.3x en tasa de tokens, preservando la distribución de salida. ¡Descubre cómo!
Descubre cómo tres intervenciones mejoran la decodificación especulativa, aumentando la longitud de secuencia aceptada hasta un 76% con modelos de difusión.
Descubre VIA-SD, un nuevo método de decodificación especulativa que acelera la inferencia de LLMs hasta 3x reduciendo rechazos mediante verificación jerárquica.
Descubre cómo la decodificación especulativa acelera los LLMs al usar un modelo pequeño para predecir tokens y uno grande para verificar, sin perder calidad.
VSD revoluciona la decodificación especulativa: hasta 9.6% más rápido en LLMs. Aprende cómo optimizar tu entrenamiento de borradores.
Descubre cómo Xiaomi MiMo y TileRT logran más de 1000 tokens por segundo en modelos de 1 billón de parámetros con GPUs estándar. FP4, DFlash y TileRT.
Descubre SSSD, un método gratuito que acelera la inferencia de LLM hasta 2.9x sin necesidad de entrenamiento ni modelos auxiliares. Robusto en cambios de idioma y contexto largo.
Descubre SSSD, un método de decodificación especulativa sin entrenamiento que acelera la inferencia de LLMs hasta 2.9x con menor latencia y alta robustez.
Descubre cómo D^2SD acelera la inferencia de modelos de lenguaje usando dos difusores para generar y verificar tokens en paralelo, mejorando la eficiencia.
KnapSpec acelera inferencia LLMs hasta 1.47x sin entrenamiento. Selecciona capas adaptativas como problema mochila. Optimiza rendimiento en secuencias.
Descubre TreeFlash: acelera la decodificación especulativa con aproximación autorregresiva paralela. Logra un 12% más de eficiencia y 9% más de velocidad.
Descubre cómo MTPC acelera LLMs con circuitos probabilísticos, logrando rapidez y expresividad sin pérdida de calidad.
Optimiza la tasa de aceptación con pérdidas LK en decodificación especulativa, logrando hasta un 10% más de longitud.
Acelera la generación multimodal con DREAM-S, un novedoso método de decodificación especulativa que alcanza 3.85x de velocidad en VLMs.
Descubre SimSD: un método de decodificación especulativa para modelos de difusión que acelera la inferencia hasta 7.46x sin sacrificar calidad.
Descubre TAPS, que acelera la decodificación especulativa hasta 7.9x con selección inteligente de árboles de prefijos. Mejora el rendimiento sin pérdidas.
Descubre BudgetDraft: entrenamiento multi-vista acelera decodificación especulativa con KV disperso hasta 6.55x en contextos de 4K a 16K, optimizando memoria.
Acelera tus LLMs con Decodificación Híbrida Verificada. Predice aceptación de caché, elige verificación óptima. Hasta 2.73x más rápido en flujos agentivos.
Descubre SENSE: acelera inferencia de LLMs hasta 3.26x usando embeddings semánticos, sin perder calidad. Ideal para desarrolladores.
Descubre cómo mejorar la decodificación especulativa en idiomas no ingleses. Comparamos fine-tuning y modelos n-grama para acelerar la generación de texto multilingüe.