#atención bidireccional

Diagramas de Hasse para Atención en Transformers

Descubre cómo los Diagramas de Hasse permiten diseñar máscaras de atención eficientes en Transformers, mejorando el flujo de información y la consistencia entrenamiento-inferencia.

2026-06-10 · 2 min

Caché KV de prefijo compartido en modelos de difusión

Descubre cómo Bicache optimiza el caché KV de prefijo compartido en modelos de difusión, aumentando el rendimiento hasta 98% sin colapso de precisión.

2026-06-09 · 2 min

Máscaras que distraen: comprensión contextual en modelos de difusión

Los MDLM tienen dos grandes problemas: sesgo local y distracción por máscaras. Descubre cómo un nuevo método de ajuste mejora la comprensión contextual.

2026-06-05 · 1 min

Regret Pre-training: Uniendo conocimiento previo y futuro

Regret Pre-training: nuevo método que usa información futura para mejorar modelos de lenguaje. Logra un 33.9% de precisión en 9 tareas. ¡Sin parámetros extra!

2026-06-03 · 2 min