#transformer

IntAttention: Pipeline entero de atención para inferencia en edge

Descubre IntAttention: acelera la inferencia de Transformers en edge hasta 3.7x con pipeline entero sin conversiones. Sin pérdida de precisión.

2026-06-01 · 2 min

Mecanismo SuperActivador: Transformers concentran señales de concepto en cola

Los SuperActivadores: tokens de cola en Transformers que señalan conceptos con alta fiabilidad, mejorando la detección en 0.14 F1. ¡Descubre el mecanismo!

2026-06-01 · 3 min

Reconocimiento de Lenguajes Libres de Contexto con Transformers

Descubre cómo los transformers con bucles y relleno logran reconocer lenguajes libres de contexto, y por qué los lenguajes no ambiguos son más eficientes.

2026-06-01 · 2 min

De pesos a código: extrayendo algoritmos interpretables del Transformer Discreto

Extrae algoritmos interpretables de un Transformer Discreto. Descubre cómo convertir pesos neuronales en código legible para una IA más explicable.

2026-06-01 · 3 min

Expresividad de Transformers con padding: ¿qué opciones importan?

¿Qué opciones de arquitectura realmente importan en transformers con padding? La precisión numérica y la profundidad determinan su expresividad, con equivalencias a circuitos AC0 y TC0.

2026-06-01 · 2 min

ConTrans: Representaciones local-global con texto para localización zero-shot

Descubre ConTrans: combina convolución y transformer para representaciones local-global en localización zero-shot, nuevo benchmark.

2026-06-01 · 2 min

Cabezas de Atención Posicional vs Simbólica: Dinámicas y Generalización

Descubre cómo las cabezas de atención posicionales y simbólicas aprenden en Transformers, su geometría RoPE y generalización de longitud.

2026-06-01 · 2 min

DTop-p MoE: Control dinámico de esparcidad en preentrenamiento de modelos

Descubre DTop-p MoE, un nuevo mecanismo de enrutamiento dinámico que aprende el umbral de probabilidad para controlar la esparcidad, superando a Top-k y Top-p fijo en modelos fundacionales.

2026-06-01 · 2 min

PictSure: La calidad de embeddings es clave para el aprendizaje en contexto

PictSure clasifica imágenes con pocos ejemplos usando aprendizaje en contexto. La calidad de los embeddings pre-entrenados es clave. Modelo open source.

2026-06-01 · 2 min

Transformadores Universales Fijos: El poder de la representación

¿Sabías que un transformer fijo puede simular cualquier otro modelo? Investigación revela que el poder está en la representación, no en los pesos. Entra y descúbrelo.

2026-06-01 · 2 min

Asignar y Sumar: Estudio mecanicista de aritmética composicional

Estudio mecanicista revela cómo los transformers aprenden aritmética modular y asignación de variables para generalizar combinaciones no vistas. ¡Entra!

2026-06-01 · 3 min

Dando voz a los sensores: JEPA multimodal para series temporales

Descubre CHARM, el modelo JEPA multimodal para embeddings semánticos en series temporales. Ideal para anomalías y predicción.

2026-06-01 · 3 min

Optimizador basado en atención para buscar simetrías

Descubre cómo un optimizador basado en atención encuentra simetrías en Hamiltonianos de Pauli usando IA, superando métodos tradicionales en modelos de Ising y Toric.

2026-06-01 · 3 min

Sesgo Neuronal Implícito Factorizado en Superresolución con FlashAttention

RIB permite FlashAttention en SR Transformers, logrando ventanas de 96x96, 2.1x menos entrenamiento y 2.9x menos inferencia. Alcanza 35.63 dB PSNR en Urban100.

2026-06-01 · 2 min

Enrutamiento Variacional: Marco Bayesiano Escalable para Transformers MoE

Descubre VMoER, un marco bayesiano que mejora la incertidumbre en MoE con un 94% menos error y solo 1% más de FLOPs.

2026-06-01 · 2 min

Algoritmo del mapa zeta en caminos de Dyck con IA interpretable

Descubre cómo un pequeño transformer aprende el mapa zeta en caminos de Dyck, y cómo la interpretabilidad mecánica revela un nuevo algoritmo verificable por humanos.

2026-06-01 · 2 min

Chain-of-Thought y Transformers en Bucle: Separación de Presupuesto de Memoria

Comparativa de memoria: Chain-of-Thought vs Transformers en bucle comprimido. Los bucles no pueden igualar el razonamiento con scratchpad. ¡Descubre por qué!

2026-06-01 · 3 min

ImmersiveTTS: Texto a Voz Consciente del Entorno con Difusión Multimodal

ImmersiveTTS genera voz natural integrada en entornos reales, superando en naturalidad e inteligibilidad a otros modelos. Conoce cómo logra la alineación semántica con difusión multimodal.

2026-06-01 · 2 min

FHRFormer: Un marco de trabajo de Transformer enmascarado auto-supervisado para la imputación y predicción de series temporales de frecuencia cardíaca fetal

Descubre FHRFormer, un transformer auto-supervisado que imputa y predice la frecuencia cardíaca fetal con alta precisión.

2026-05-30 · 1 min

Evaluación comparativa de estrategias de codificación posicional para modelos fundamentales de EEG basados en Transformers

Comparativa de codificación posicional para modelos Transformer en EEG. Analizamos técnicas y su impacto en el rendimiento. Descubre la mejor opción.

2026-05-30 · 2 min