#cpu-gpu

SLOs de nivel cloud en inferencia local de MoE con CPU-GPU

Logra SLOs de nivel cloud en inferencia local de MoE con diseño híbrido CPU-GPU. Prefill acelerado, decodificación eficiente y soporte FP8 nativo en CPU. Ideal para IA local de alta calidad.

2026-06-10 · 3 min