Diagramas de Hasse para Atención en Transformers
Descubre cómo los Diagramas de Hasse permiten diseñar máscaras de atención eficientes en Transformers, mejorando el flujo de información y la consistencia entrenamiento-inferencia.
Descubre cómo los Diagramas de Hasse permiten diseñar máscaras de atención eficientes en Transformers, mejorando el flujo de información y la consistencia entrenamiento-inferencia.
Descubre cómo Bicache optimiza el caché KV de prefijo compartido en modelos de difusión, aumentando el rendimiento hasta 98% sin colapso de precisión.
Los MDLM tienen dos grandes problemas: sesgo local y distracción por máscaras. Descubre cómo un nuevo método de ajuste mejora la comprensión contextual.
Regret Pre-training: nuevo método que usa información futura para mejorar modelos de lenguaje. Logra un 33.9% de precisión en 9 tareas. ¡Sin parámetros extra!