#atención latente

FlashMLA-ETAP: Pipeline de atención transpuesta eficiente para MLA en NVIDIA H20

FlashMLA-ETAP acelera hasta 2.78x la inferencia de DeepSeek-R1 en GPUs H20, con menor error y mayor eficiencia. ¡Optimiza tu modelo ahora!

Mueve la consulta en lugar del caché KV y reduce la latencia en atención entre GPUs. Optimiza clusters H100 con RDMA.