Vegas: Decodificación Auto-Especulativa con Atención Dispersa Verificada
Descubre Vegas: acelera LLMs hasta 2.81x usando atención dispersa guiada por verificación. Sin pérdida, código abierto.
Descubre Vegas: acelera LLMs hasta 2.81x usando atención dispersa guiada por verificación. Sin pérdida, código abierto.