#optimización transformer

AgentCompile: Un compilador guiado por LLM para inferencia CUDA directa

Descubre AgentCompile, el compilador guiado por LLM que acelera la inferencia CUDA hasta 5.66x en modelos como Qwen y Llama. Código abierto.