SSSD: Decodificación Especulativa Simplemente Escalable
Descubre SSSD, un método de decodificación especulativa sin entrenamiento que acelera la inferencia de LLMs hasta 2.9x con menor latencia y alta robustez.
Descubre SSSD, un método de decodificación especulativa sin entrenamiento que acelera la inferencia de LLMs hasta 2.9x con menor latencia y alta robustez.