Transformer como una discretización de Euler del flujo variacional basado en puntuaciones
Explora la interpretación de los Transformers como discretización de Euler del flujo variacional de puntuaciones. Una perspectiva matemática que conecta modelos de atención y dinámica de puntuaciones.