AutoMegaKernel: Megakernel verificado para inferencia eficiente de LLMs AutoMegaKernel compila modelos Llama en un kernel CUDA unificado, verificado estáticamente, superando a cuBLAS en GPUs de inferencia hasta 1.33x sin errores. 2026-06-09 · 3 min