AHASD: Arquitectura Heterogénea Asíncrona para la Decodificación Especulativa con Borrador Adaptativo de LLM en Dispositivos Móviles
AHASD optimiza la inferencia en dispositivos móviles mediante decodificación especulativa con borrador adaptativo. Reduce latencia y acelera modelos de lenguaje.