dLLM-Cache: Caché Adaptativa para Modelos de Lenguaje con Difusión
dLLM-Cache acelera hasta 9x modelos de difusión con caché adaptativa, sin entrenamiento y con latencia cercana a modelos autoregresivos.
dLLM-Cache acelera hasta 9x modelos de difusión con caché adaptativa, sin entrenamiento y con latencia cercana a modelos autoregresivos.
Fast-dLLM++ acelera inferencia de LLM difusivos sin modificar modelo, aprovechando confianza heterogénea para lograr 37% más rendimiento sin perder precisión.
Descubre Safe-FedLLM: un sistema de defensa que detecta actualizaciones maliciosas de LoRA en FedLLM, protegiendo la seguridad sin afectar la velocidad.
Descubre SimSD: un método de decodificación especulativa para modelos de difusión que acelera la inferencia hasta 7.46x sin sacrificar calidad.
DLLM-JEPA: nueva arquitectura que combina JEPA y difusión enmascarada para reducir FLOPs un 33% y ganar hasta 18.7% en precisión.