#transformers

Mecanismo SuperActivador: Transformers concentran señales de concepto en cola

Los SuperActivadores: tokens de cola en Transformers que señalan conceptos con alta fiabilidad, mejorando la detección en 0.14 F1. ¡Descubre el mecanismo!

2026-06-01 · 3 min

Reconocimiento de Lenguajes Libres de Contexto con Transformers

Descubre cómo los transformers con bucles y relleno logran reconocer lenguajes libres de contexto, y por qué los lenguajes no ambiguos son más eficientes.

2026-06-01 · 2 min

Expresividad de Transformers con padding: ¿qué opciones importan?

¿Qué opciones de arquitectura realmente importan en transformers con padding? La precisión numérica y la profundidad determinan su expresividad, con equivalencias a circuitos AC0 y TC0.

2026-06-01 · 2 min

Cabezas de Atención Posicional vs Simbólica: Dinámicas y Generalización

Descubre cómo las cabezas de atención posicionales y simbólicas aprenden en Transformers, su geometría RoPE y generalización de longitud.

2026-06-01 · 2 min

DTop-p MoE: Control dinámico de esparcidad en preentrenamiento de modelos

Descubre DTop-p MoE, un nuevo mecanismo de enrutamiento dinámico que aprende el umbral de probabilidad para controlar la esparcidad, superando a Top-k y Top-p fijo en modelos fundacionales.

2026-06-01 · 2 min

Transformadores Universales Fijos: El poder de la representación

¿Sabías que un transformer fijo puede simular cualquier otro modelo? Investigación revela que el poder está en la representación, no en los pesos. Entra y descúbrelo.

2026-06-01 · 2 min

Asignar y Sumar: Estudio mecanicista de aritmética composicional

Estudio mecanicista revela cómo los transformers aprenden aritmética modular y asignación de variables para generalizar combinaciones no vistas. ¡Entra!

2026-06-01 · 3 min

Sesgo Neuronal Implícito Factorizado en Superresolución con FlashAttention

RIB permite FlashAttention en SR Transformers, logrando ventanas de 96x96, 2.1x menos entrenamiento y 2.9x menos inferencia. Alcanza 35.63 dB PSNR en Urban100.

2026-06-01 · 2 min

Enrutamiento Variacional: Marco Bayesiano Escalable para Transformers MoE

Descubre VMoER, un marco bayesiano que mejora la incertidumbre en MoE con un 94% menos error y solo 1% más de FLOPs.

2026-06-01 · 2 min

Chain-of-Thought y Transformers en Bucle: Separación de Presupuesto de Memoria

Comparativa de memoria: Chain-of-Thought vs Transformers en bucle comprimido. Los bucles no pueden igualar el razonamiento con scratchpad. ¡Descubre por qué!

2026-06-01 · 3 min

Un estudio comparativo de embeddings basados en transformadores para la coherencia temática

Comparativa de embeddings transformers para coherencia temática. Descubre qué modelo destaca en mantener la consistencia temática en tus textos. Elige el mejor para tu proyecto.

2026-05-30 · 2 min

Geometría de rango relacional en Transformers: Detección y direccionamiento de los marcos de relación de estado oculto

2026-05-29 · 2 min

DiScoFormer: Plug-In de estimación de densidad y puntuación con Transformers

2026-05-29 · 2 min

Transferibilidad de tamaño de los Transformers de Grafos con Codificaciones Posicionales Convolucionales

Descubre cómo los Transformers de Grafos logran transferibilidad de tamaño usando codificaciones posicionales convolucionales. Un avance clave en aprendizaje de grafos.

2026-05-29 · 3 min

¡Dale espacio! Desenredo explícito de representaciones posicionales y semánticas en codificadores

2026-05-29 · 1 min

MATNet: Modelo Basado en Transformers con Fusión Multi-Nivel para la Predicción de Generación Fotovoltaica del Día Siguiente

2026-05-29 · 2 min

Enfoque de interpretación genérica para modelos Transformer que incorporan estructuras de atención heterogéneas

#transformers

Mecanismo SuperActivador: Transformers concentran señales de concepto en cola

Reconocimiento de Lenguajes Libres de Contexto con Transformers

Expresividad de Transformers con padding: ¿qué opciones importan?

Cabezas de Atención Posicional vs Simbólica: Dinámicas y Generalización

DTop-p MoE: Control dinámico de esparcidad en preentrenamiento de modelos

Transformadores Universales Fijos: El poder de la representación

Asignar y Sumar: Estudio mecanicista de aritmética composicional

Sesgo Neuronal Implícito Factorizado en Superresolución con FlashAttention

Enrutamiento Variacional: Marco Bayesiano Escalable para Transformers MoE

Chain-of-Thought y Transformers en Bucle: Separación de Presupuesto de Memoria

Un estudio comparativo de embeddings basados en transformadores para la coherencia temática

Geometría de rango relacional en Transformers: Detección y direccionamiento de los marcos de relación de estado oculto

DiScoFormer: Plug-In de estimación de densidad y puntuación con Transformers

Transferibilidad de tamaño de los Transformers de Grafos con Codificaciones Posicionales Convolucionales

¡Dale espacio! Desenredo explícito de representaciones posicionales y semánticas en codificadores

MATNet: Modelo Basado en Transformers con Fusión Multi-Nivel para la Predicción de Generación Fotovoltaica del Día Siguiente

Enfoque de interpretación genérica para modelos Transformer que incorporan estructuras de atención heterogéneas

Regresión medida a medida con Transformers

Meta-Atención: Enrutamiento Bayesiano por Token para Inferencia Eficiente de Transformadores

Transformers aprenden demostrablemente a internalizar la cadena de pensamiento