SparDA: Atención Dispersa Desacoplada para LLM de Contexto Largo Descubre SparDA, una arquitectura que acelera la inferencia de LLM de contexto largo hasta 5.3x, reduciendo el cuello de botella del caché KV. 2026-06-04 · 3 min