AgentCompile: Un compilador guiado por LLM para inferencia CUDA directa
Descubre AgentCompile, el compilador guiado por LLM que acelera la inferencia CUDA hasta 5.66x en modelos como Qwen y Llama. Código abierto.
Descubre AgentCompile, el compilador guiado por LLM que acelera la inferencia CUDA hasta 5.66x en modelos como Qwen y Llama. Código abierto.