Moonshot AI publica en código abierto FlashKDA: Kernels CUTLASS para Kimi Delta Attention con lotes de longitud variable y benchmarks H20

La evolución de los modelos de lenguaje de gran escala ha impulsado una búsqueda constante de mecanismos de atención más eficientes, capaces de procesar contextos extremadamente largos sin disparar los costes computacionales. En este escenario, el equipo de Moonshot AI ha compartido una implementación optimizada que merece atención por parte de cualquier profesional que trabaje en inteligencia artificial aplicada. Se trata de un kernel CUDA basado en CUTLASS, diseñado para acelerar un tipo concreto de atención lineal denominada Kimi Delta Attention, que emplea un gateo por canales más fino que otras variantes previas. Lo relevante no es solo el rendimiento bruto —con aceleraciones de hasta 2,22× en prefijado sobre GPU H20— sino la madurez de la integración: funciona como reemplazo directo de la biblioteca flash-linear-attention, sin necesidad de modificar la arquitectura del modelo. Esto permite que cualquier sistema que ya emplee esa librería pueda beneficiarse de forma inmediata, un factor crítico cuando se despliegan agentes IA en entornos productivos donde la latencia de prefijado determina la experiencia de usuario. Desde una perspectiva de ingeniería, la compatibilidad con lotes de secuencias de longitud variable (varlen batching) resulta especialmente valiosa para sistemas de inferencia real, donde las peticiones rara vez tienen el mismo tamaño. Poder empaquetar múltiples secuencias en una sola llamada al kernel sin desperdiciar recursos es una capacidad que cualquier equipo de infraestructura de IA apreciará.

Este avance no es un experimento aislado: forma parte del ecosistema de Kimi Linear, un modelo híbrido de 48 mil millones de parámetros totales que emplea una proporción 3:1 entre capas de atención lineal y atención global, reduciendo el uso de caché KV hasta un 75% en generaciones largas. La existencia de kernels altamente optimizados como el que nos ocupa demuestra que la investigación en mecanismos de atención alternativos está madurando hacia implementaciones listas para producción. Para las empresas que buscan incorporar ia para empresas de forma rentable, contar con componentes como este permite escalar sin multiplicar costes de hardware. En Q2BSTUDIO, entendemos que detrás de cada solución de inteligencia artificial debe haber una base técnica sólida y flexible. Por eso ofrecemos aplicaciones a medida que integran estos avances en la nube, ya sea sobre servicios cloud aws y azure o combinando capacidades de ciberseguridad y servicios inteligencia de negocio con power bi para extraer valor de los datos.

La publicación bajo licencia MIT de este kernel, con requisitos mínimos de CUDA 12.9 y PyTorch 2.4, abre la puerta a que cualquier equipo de desarrollo pueda auditar, modificar y desplegar la optimización sin barreras legales. La verificación de exactitud frente a implementaciones de referencia proporciona la confianza necesaria para entornos críticos. En un momento en que la eficiencia computacional es tan estratégica como la precisión de los modelos, contribuciones como esta refuerzan la importancia de contar con aliados tecnológicos capaces de orquestar todo el ecosistema: desde el ajuste fino de arquitecturas de atención hasta la integración con plataformas de automatización de procesos. En Q2BSTUDIO desarrollamos software a medida que aprovecha estos avances para construir soluciones robustas, seguras y escalables, alineadas con las necesidades reales de las organizaciones que apuestan por la transformación digital.

Compartir

Comentarios