La estructura de la tarea invierte la codificación de estado por capas en modelos secuenciales
Descubre cómo la estructura de la tarea invierte la codificación de estado en modelos como Transformers y Mamba. Un estudio revela patrones opuestos en paridad y Dyck.