AXON: revelación de tokens de apoyo para decodificación rápida
AXON es un módulo sin entrenamiento que optimiza la decodificación paralela en modelos de difusión, reduciendo evaluaciones y mejorando precisión.
AXON es un módulo sin entrenamiento que optimiza la decodificación paralela en modelos de difusión, reduciendo evaluaciones y mejorando precisión.
Descubre AXON, un módulo que mejora la decodificación en modelos de difusión al revelar tokens de apoyo, reduciendo pasos y manteniendo precisión. Optimiza el equilibrio entre calidad y latencia.
Descubre SSSD, un método gratuito que acelera la inferencia de LLM hasta 2.9x sin necesidad de entrenamiento ni modelos auxiliares. Robusto en cambios de idioma y contexto largo.
Descubre SSSD, un método de decodificación especulativa sin entrenamiento que acelera la inferencia de LLMs hasta 2.9x con menor latencia y alta robustez.
Descubre cómo D^2SD acelera la inferencia de modelos de lenguaje usando dos difusores para generar y verificar tokens en paralelo, mejorando la eficiencia.
Descubre PVF, un nuevo método de decodificación paralela para modelos de difusión que reduce hasta un 65% las evaluaciones de función sin perder precisión.
KnapSpec acelera inferencia LLMs hasta 1.47x sin entrenamiento. Selecciona capas adaptativas como problema mochila. Optimiza rendimiento en secuencias.
Descubre TreeFlash: acelera la decodificación especulativa con aproximación autorregresiva paralela. Logra un 12% más de eficiencia y 9% más de velocidad.
Descubre SEAOTTER, un innovador framework de compresión para robótica en la nube que combina autoencoders con JPEG, logrando 200:1 de compresión y 7x más velocidad que AVIF.
Descubre cómo MTPC acelera LLMs con circuitos probabilísticos, logrando rapidez y expresividad sin pérdida de calidad.
Fast-dLLM++ acelera inferencia de LLM difusivos sin modificar modelo, aprovechando confianza heterogénea para lograr 37% más rendimiento sin perder precisión.
Descubre cómo StiefAttention comprime el caché KV con aproximación de rango bajo en la variedad de Stiefel, mejorando precisión y eficiencia en modelos de lenguaje.
Descubre dgMARK: el nuevo marcado de agua guiado por decodificación para modelos de difusión. Protege tu IA fácilmente.
ParisKV: recuperación de caché KV para LLMs largos, hasta 44x más rápido y robusto ante deriva. Optimiza tu inferencia.
Descubre cómo los PRA mejoran el razonamiento intensivo en conocimiento con recompensas paso a paso, logrando 81.9% en MedQA con Qwen3-4B.
Descubre T-POP, personalización rápida de LLMs sin reentrenamiento usando preferencias en línea y bandidos duelistas.
Descubre cómo Difusión Discreta VLA decodifica acciones robóticas con orden adaptativo y corrección de errores. 96.4% éxito en LIBERO.
Mejora un 40% el pronóstico de series temporales y acelera el rendimiento un 2314% con tokenización Byte Pair. Decodificación condicional sin coste.
Descubre d2, un marco de razonamiento para modelos de difusión que mejora el rendimiento en tareas lógicas y matemáticas, superando a RL tradicional.
Descubre Vegas: acelera LLMs hasta 2.81x usando atención dispersa guiada por verificación. Sin pérdida, código abierto.