#transformer

Interpreto: Biblioteca de Explicabilidad para Transformers

Interpreto: biblioteca Python de código abierto para explicar modelos transformer de HuggingFace. Ofrece atribuciones y explicaciones por conceptos para clasifi

2026-06-02 · 2 min

Ajuste fino sin olvidar el aprendizaje en contexto: modelos de atención lineal

Descubre cómo afinar modelos de atención lineal sin perder el aprendizaje en contexto. Consejos teóricos para mejorar el rendimiento zero-shot.

2026-06-02 · 2 min

Límites de generalización de longitud en transformers

Descubre por qué no existen límites computables de generalización de longitud para transformers y C-RASP, y cómo afecta al aprendizaje automático.

2026-06-02 · 2 min

Marco de atribución monosemántica para interpretabilidad clínica estable

Un nuevo marco de atribución monosemántica estabiliza explicaciones en modelos de lenguaje para diagnósticos de Alzheimer, mejorando la confianza.

2026-06-02 · 2 min

Transformer de grafos multitarea para predicción de tránsito

Descubre cómo el Transformer SMT-GraphFormer predice embarques y desembarques en autobuses con precisión superior, superando modelos tabulares tradicionales. Ideal para planificación urbana.

2026-06-02 · 2 min

Transformers con normalización de capa aprenden el método de potencia

Transformers con normalización de capa aprenden el método de potencia por gradiente descendente, revelando un sesgo algorítmico que mejora la predicción de componentes principales.

2026-06-02 · 1 min

La estructura de la tarea invierte la codificación de estado por capas en modelos secuenciales

Descubre cómo la estructura de la tarea invierte la codificación de estado en modelos como Transformers y Mamba. Un estudio revela patrones opuestos en paridad y Dyck.

2026-06-02 · 3 min

Más allá de las sinusoides: Codificación posicional con wavelet Morlet

MoPE: codificación posicional con wavelet Morlet que unifica sinusoides y RoPE, aprende frecuencias y localidad. ¡Rendimiento superior en transformers!

2026-06-02 · 3 min

Estructura y escala en el modelado de secuencias simpliciales

Descubre cómo la escala en modelos de secuencias simpliciales se correlaciona con estructura y rendimiento en transformers. Un estudio revela patrones predecibles.

2026-06-02 · 1 min

FAiT: Transformer Invertido Consciente de la Frecuencia para Series Temporales

Descubre FAiT: supera el sesgo de baja frecuencia y modula dinámicamente frecuencias para pronósticos precisos de series temporales multivariables.

2026-06-02 · 2 min

Más allá de las sinusoides: codificación posicional con wavelets Morlet en transformers

Descubre MoPE, un nuevo marco de codificación posicional con wavelets Morlet que unifica sinusoides y RoPE, mejorando atención y rendimiento en lenguaje.

2026-06-02 · 2 min

Estructura y Escala en Modelado de Secuencias Simpliciales

¿Cómo se relacionan las leyes de escalado con las representaciones internas en deep learning? Este estudio revela una correlación entre rendimiento y estructura

2026-06-02 · 1 min

FAiT: Transformer Invertido Consciente de Frecuencia para Series Temporales

FAiT: Transformer invertido que corrige el sesgo de baja frecuencia en pronóstico de series temporales multivariadas con modulación dinámica

2026-06-02 · 2 min

ReFLEX: Eliminación de ruido CSI en MIMO-OFDM con sesgo de frecuencia relativa

Descubre ReFLEX, Transformer que elimina ruido CSI en MIMO-OFDM con asignaciones RB variables, mejorando el BLER en 2-3 dB en canales 3GPP sin reentrenamiento.

2026-06-02 · 2 min

CART: Transformer Recurrento Eficiente con Estabilidad Aprendida

CART es un transformer recurrente que reduce parámetros al reutilizar un bloque central. Con estabilidad aprendida vía puerta LTI, ofrece resultados competitivos en GPU de consumo.

2026-06-02 · 2 min

Transformers de ventana deslizante sin PE: Turing Completos

¿Sabías que los transformers sin codificación posicional pueden ser Turing completos? La clave está en la ventana deslizante. Descúbrelo.

2026-06-02 · 2 min

Trading de Bitcoin con ML ante costos de transacción

¿Funciona el ML para trading de Bitcoin? Analizamos XGBoost, LSTM e iTransformer y cómo un filtro por costos de transacción mejora los resultados.

2026-06-02 · 2 min

ChWDTA: Atención wavelet por canales para compresión de imágenes

Descubre ChWDTA, un nuevo modelo que combina CNN y transformer con wavelets para lograr reducciones BD-rate de hasta 22% en compresión de imágenes.

2026-06-02 · 2 min

Codificaciones posicionales anclan estructura espacial y robustez en ViTs

Descubre cómo las codificaciones posicionales anclan la estructura espacial en Vision Transformers y mejoran la robustez. La métrica SSDC revela la geometría.

2026-06-02 · 2 min

El análogo de Grokking en el preentrenamiento de modelos de lenguaje

Descubre cómo el fenómeno Grokking aparece en el preentrenamiento de LLMs, revelando una generalización gramatical retardada. Análisis de conceptos y atención en cabezas.

2026-06-02 · 3 min