DyLLM: Inferencia Eficiente de LLMs de Difusión mediante Token Saliente
Descubre DyLLM, un marco de inferencia sin entrenamiento que acelera hasta 9.6x los LLMs de difusión seleccionando solo tokens relevantes. Ideal para razonamiento y código.
Descubre DyLLM, un marco de inferencia sin entrenamiento que acelera hasta 9.6x los LLMs de difusión seleccionando solo tokens relevantes. Ideal para razonamiento y código.
Acelera la generación multimodal con DREAM-S, un novedoso método de decodificación especulativa que alcanza 3.85x de velocidad en VLMs.
DREAM-R: razonamiento especulativo multimodal con redacción por refuerzo, verificación precisa y paralelismo para inferencia eficiente.