Inferencia eficiente de LLM difusivos en móviles con NPU
Descubre cómo llada.cpp acelera la inferencia de LLM difusivos en móviles usando NPU, reduciendo latencia hasta 42x sin pérdida de calidad. Optimización de memoria y descodificación especulativa.