#descarga adaptativa

GELATO: Descarga adaptativa de tokens basada en entropía generativa y Lyapunov para inferencia especulativa de LLM en dispositivo-borde

GELATO optimiza la inferencia especulativa de LLMs en el borde mediante descarga adaptativa de tokens, mejorando eficiencia y velocidad sin sacrificar precisión.

2026-05-13 · 3 min