#triton

Flash-KMeans: k-means exacto 200 veces más rápido que FAISS en GPU

Nueva librería open-source que acelera el k-means exacto hasta 200x vs FAISS en GPU. Ideal para pipelines de IA con clustering en tiempo real.

2026-06-15 · 3 min

Acelerando Transformers de Difusión con INT8 nativo en GPUs de consumo

Descubre cómo un kernel INT8 fusionado en Triton acelera hasta 4.2x los Transformers de Difusión en GPUs Ampere, superando a FP8 y NF4 sin pérdida de calidad.

2026-06-15 · 2 min

Modelado de Lenguaje Express: Optimización de Atención Causal

Express optimiza atención causal, supera a FlashAttention 2. Reduce cuellos de botella de memoria, cómputo y compresión KV en modelado de lenguaje.

2026-06-10 · 2 min

E2Former-V2: Atención Equivariante en Tiempo Real con Memoria Lineal

Descubre cómo E2Former-V2 acelera 20x la atención equivariante en redes neuronales de grafos usando un kernel Triton optimizado para GPUs.

2026-06-08 · 2 min

KForge: generación de kernels mediante LLMs para aceleradores de IA

KForge automatiza la generación de kernels para aceleradores IA mediante agentes LLM. Logra mejoras de hasta 5x en Intel Arc y 2% en NVIDIA B200. ¡Descubre más!

2026-06-03 · 3 min

Convoluciones cortas dinámicas mejoran los Transformers

Aprende cómo las convoluciones dinámicas mejoran los Transformers con ventajas en eficiencia. Implementación con kernels Triton.

2026-06-03 · 2 min

Inferencia determinista con paralelismo tensorial sin desajuste

Descubre cómo los kernels invariantes de árbol garantizan inferencia determinista con resultados bit a bit idénticos, eliminando el desajuste entre entrenamiento e inferencia en LLMs.

2026-06-01 · 2 min

Light Interaction: Aceleración sin entrenamiento para modelos de video interactivos

Light Interaction acelera hasta 2.59x la inferencia de modelos de video interactivos sin reentrenamiento, manteniendo calidad visual. Ideal para simulación y navegación virtual.

2026-06-01 · 2 min