M*: Sistema universal y eficiente para modelos multimodales
Descubre M*, el sistema de serving que reduce la latencia hasta un 20% en modelos multimodales, superando a vLLM-Omni. Ideal para arquitecturas compuestas de IA.
Descubre M*, el sistema de serving que reduce la latencia hasta un 20% en modelos multimodales, superando a vLLM-Omni. Ideal para arquitecturas compuestas de IA.