#ttft

SIFT: Índice selectivo para acelerar prefill de RAG con invarianza de atención

Descubre cómo SIFT optimiza el prefill de RAG usando índices selectivos de atención, acelerando el TTFT hasta 1.71x con precisión casi perfecta.

2026-06-09 · 2 min

LazyAttention: RAG Eficiente con Codificación Posicional Diferida

Descubre LazyAttention, la técnica que acelera la inferencia de LLMs en RAG con caching KV sin copias. Reduce el TTFT 1.37x y aumenta el throughput 1.40x.

2026-06-04 · 2 min

NetKV: Instancias de decodificación conscientes de red para LLMs desagregados

NetKV reduce hasta un 21.2% el tiempo hasta el primer token en inferencia LLM desagregada, superando schedulers tradicionales sin cambios en hardware.

2026-06-03 · 2 min

Lodestar: enrutador de inferencia LLM con aprendizaje en línea

Lodestar optimiza el enrutamiento de inferencia LLM mediante aprendizaje en línea, logrando hasta 4x menor TTFT en clústeres heterogéneos.

2026-06-02 · 2 min