GELATO: Descarga adaptativa de tokens basada en entropía generativa y Lyapunov para inferencia especulativa de LLM en dispositivo-borde
GELATO optimiza la inferencia especulativa de LLMs en el borde mediante descarga adaptativa de tokens, mejorando eficiencia y velocidad sin sacrificar precisión.