¿Cuándo surgen los circuitos de atención? Estudio en modelos 1B Estudio revela cómo y cuándo se forman los circuitos de atención en modelos de lenguaje 1B. Descubre que inducción y atención-sumidero están separadas por orden de magnitud en tokens. 2026-06-02 · 2 min