Atención de flujo: Atención híbrida consciente del contexto para una inferencia eficiente en modelos de lenguaje de gran tamaño Optimización del flujo de atención para mejorar la eficiencia en modelos de gran tamaño en un contexto de inferencia. 2026-04-10 · 2 min