AutoMegaKernel: Megakernel verificado para inferencia eficiente de LLMs
AutoMegaKernel compila modelos Llama en un kernel CUDA unificado, verificado estáticamente, superando a cuBLAS en GPUs de inferencia hasta 1.33x sin errores.
AutoMegaKernel compila modelos Llama en un kernel CUDA unificado, verificado estáticamente, superando a cuBLAS en GPUs de inferencia hasta 1.33x sin errores.
Despliegue autónomo de LLM en NPU espaciales usando un sistema de habilidades. Aceleraciones de hasta 4x. ¡Optimiza tu edge AI!