#nubes gpu heterogéneas

Asignación conjunta y escalable de recursos para inferencia LLM con SLO en nubes GPU

Optimiza la inferencia de LLM con nuestro marco escalable que asigna recursos GPU bajo SLO, logrando soluciones casi óptimas en segundos y reduciendo costes.

2026-06-08 · 1 min