MiniMax Sparse Attention (MSA): Atención Dispersa de Dos Ramas
MSA reduce el costo cuadrático de la atención en contextos largos mediante selección de bloques. Descubre su arquitectura de dos ramas y kernel open source.
MSA reduce el costo cuadrático de la atención en contextos largos mediante selección de bloques. Descubre su arquitectura de dos ramas y kernel open source.