VIA-SD: Verificación jerárquica con enrutamiento intra-modelo
Descubre VIA-SD, un nuevo método de decodificación especulativa que acelera la inferencia de LLMs hasta 3x reduciendo rechazos mediante verificación jerárquica.
Descubre VIA-SD, un nuevo método de decodificación especulativa que acelera la inferencia de LLMs hasta 3x reduciendo rechazos mediante verificación jerárquica.
Descubre cómo ReD (Reset and Discard) mejora la inferencia de LLMs a presupuesto fijo, aumentando la cobertura de respuestas correctas y reduciendo costos en tokens y USD.
KnapSpec acelera inferencia LLMs hasta 1.47x sin entrenamiento. Selecciona capas adaptativas como problema mochila. Optimiza rendimiento en secuencias.