DepthKV: Poda de Caché KV Dependiente de la Capa para Inferencia de LLM de Contexto Largo Poda de caché KV por capas para optimizar la inferencia de LLMs con contexto largo. Mejora eficiencia y reduce uso de memoria. 2026-04-28 · 2 min