DuetServe: Prefill y decode en LLM con multiplexación adaptativa de GPU
DuetServe armoniza prefill y decode en LLMs con multiplexación adaptativa de GPU. Mejora el throughput 1.3x manteniendo baja latencia. Descúbrelo.
DuetServe armoniza prefill y decode en LLMs con multiplexación adaptativa de GPU. Mejora el throughput 1.3x manteniendo baja latencia. Descúbrelo.