#grouped query attention

MiniMax Sparse Attention (MSA): Atención Dispersa de Dos Ramas

MSA reduce el costo cuadrático de la atención en contextos largos mediante selección de bloques. Descubre su arquitectura de dos ramas y kernel open source.

2026-06-17 · 3 min