SIFT: Índice selectivo para acelerar prefill de RAG con invarianza de atención
Descubre cómo SIFT optimiza el prefill de RAG usando índices selectivos de atención, acelerando el TTFT hasta 1.71x con precisión casi perfecta.
Descubre cómo SIFT optimiza el prefill de RAG usando índices selectivos de atención, acelerando el TTFT hasta 1.71x con precisión casi perfecta.
Descubre LazyAttention, la técnica que acelera la inferencia de LLMs en RAG con caching KV sin copias. Reduce el TTFT 1.37x y aumenta el throughput 1.40x.
NetKV reduce hasta un 21.2% el tiempo hasta el primer token en inferencia LLM desagregada, superando schedulers tradicionales sin cambios en hardware.
Lodestar optimiza el enrutamiento de inferencia LLM mediante aprendizaje en línea, logrando hasta 4x menor TTFT en clústeres heterogéneos.