#desacoplada

SparDA: Atención Dispersa Desacoplada para LLM de Contexto Largo

Descubre SparDA, una arquitectura que acelera la inferencia de LLM de contexto largo hasta 5.3x, reduciendo el cuello de botella del caché KV.