KVServe: Compresión de caché KV consciente del servicio para un servicio de LLM desagregado eficiente en comunicación
KVServe optimiza la compresión de caché KV para sistemas LLM desagregados, mejorando la eficiencia y el rendimiento en inferencia a gran escala.