#transformador

TunerDiT: Generación de video multi-evento sin entrenamiento adicional

Descubre TunerDiT: método sin entrenamiento para videos multi-evento con transformadores de difusión. Mejora consistencia y separación de eventos.

2026-06-01 · 2 min

Modelado Generativo Enmascarado de Punto Fijo

Descubre cómo FP-MGMs y CoFRe reducen parámetros y costo de entrenamiento en modelos generativos enmascarados, mejorando calidad con menos recursos.

2026-06-01 · 2 min

Transformadores Universales Fijos: El poder de la representación

¿Sabías que un transformer fijo puede simular cualquier otro modelo? Investigación revela que el poder está en la representación, no en los pesos. Entra y descúbrelo.

2026-06-01 · 2 min

Atención Funcional: de afinidades por pares a correspondencias funcionales

La Atención Funcional reemplaza softmax por operadores lineales, logrando representaciones invariantes a discretización para PDEs y segmentación 3D.

2026-06-01 · 2 min

Transformers simples: predictores de enlaces sorprendentemente potentes

Descubre cómo un Transformer simple (PENCIL) supera a las GNNs en predicción de enlaces, sin estructuras complejas ni embeddings masivos. Eficiente y potente.

2026-06-01 · 2 min

Mejora de representaciones relativas con anclajes aprendidos y productos internos blanqueados

Descubre cómo mejorar la comunicación entre modelos de IA con anclajes semánticos y métricas geométricas. Logra transferencia casi sin pérdida de información.

2026-06-01 · 2 min

Aprendizaje de representaciones de alta dimensión: uniendo lenguaje y mercado

Descubre cómo las representaciones de alta dimensión de FinBERT mejoran la predicción del mercado de valores vs puntajes de sentimiento. Resultados con redes siamesas.

2026-06-01 · 1 min

Parallax: Atención Local Lineal que Mantiene Softmax y Corrige

Parallax: atención local lineal que mantiene softmax y añade corrección de covarianza. Duplica eficiencia en GPUs para LLMs.

2026-06-01 · 2 min

El pequeño libro de los fundamentos de la IA generativa: Una introducción matemática intuitiva

Introducción intuitiva a las matemáticas de la IA generativa. Aprende los conceptos clave de forma sencilla y clara.

2026-05-29 · 1 min

Anti colapso de modo en el transformador de campo medio mediante variables auxiliares

Evita el colapso de modo en transformadores de campo medio usando variables auxiliares. Técnica clave para mejorar estabilidad y rendimiento.

2026-05-29 · 1 min

Cambio de mecanismo durante el posentrenamiento de modelos de lenguaje autorregresivos a modelos de difusión enmascarada

2026-05-29 · 3 min

AdaMerge: Fusión Adaptativa de Tokens Consciente de la Saliencia para Aceleración sin Entrenamiento de Transformadores de Visión

2026-05-29 · 2 min

Memoria Tensorial: Estado Recurrente de Tamaño Fijo para Transformadores de Horizonte Largo

2026-05-29 · 2 min

RoPE Periódica para LLMs de Contexto Infinito

Descubre cómo la RoPE periódica logra contexto ilimitado en modelos de lenguaje, mejorando el razonamiento a largo plazo.

2026-05-29 · 2 min

Manboformer: Aprendizaje de Representaciones Gaussianas mediante un Mecanismo de Atención Espacio-temporal

Manboformer: aprendizaje de representaciones gaussianas con atención espacio-temporal. Modelo innovador para análisis de datos secuenciales y espacio-temporales.

2026-05-28 · 2 min

Dinámica del Ajuste Fino de la Recuperación Factual en Contexto en Transformadores

2026-05-28 · 1 min

Circuitos de sonda espectral: Una receta de tres pasos para identificar circuitos de cabezas de atención en transformadores preentrenados

Descubre cómo identificar circuitos de atención en transformers preentrenados con la sonda espectral en solo 3 pasos. Un método eficaz y detallado.

2026-05-28 · 3 min

JetViT: Transformador de Visión de Alta Resolución Eficiente con Búsqueda de Atención Post-Entrenamiento

#transformador

TunerDiT: Generación de video multi-evento sin entrenamiento adicional

Modelado Generativo Enmascarado de Punto Fijo

Transformadores Universales Fijos: El poder de la representación

Atención Funcional: de afinidades por pares a correspondencias funcionales

Transformers simples: predictores de enlaces sorprendentemente potentes

Mejora de representaciones relativas con anclajes aprendidos y productos internos blanqueados

Aprendizaje de representaciones de alta dimensión: uniendo lenguaje y mercado

Parallax: Atención Local Lineal que Mantiene Softmax y Corrige

El pequeño libro de los fundamentos de la IA generativa: Una introducción matemática intuitiva

Anti colapso de modo en el transformador de campo medio mediante variables auxiliares

Cambio de mecanismo durante el posentrenamiento de modelos de lenguaje autorregresivos a modelos de difusión enmascarada

AdaMerge: Fusión Adaptativa de Tokens Consciente de la Saliencia para Aceleración sin Entrenamiento de Transformadores de Visión

Memoria Tensorial: Estado Recurrente de Tamaño Fijo para Transformadores de Horizonte Largo

RoPE Periódica para LLMs de Contexto Infinito

Manboformer: Aprendizaje de Representaciones Gaussianas mediante un Mecanismo de Atención Espacio-temporal

Dinámica del Ajuste Fino de la Recuperación Factual en Contexto en Transformadores

Circuitos de sonda espectral: Una receta de tres pasos para identificar circuitos de cabezas de atención en transformadores preentrenados

JetViT: Transformador de Visión de Alta Resolución Eficiente con Búsqueda de Atención Post-Entrenamiento

Más allá de la semántica: La irrazonable eficacia de los tokens intermedios sin razón

Transformers con RL o SFT aprenden demostrablemente funciones booleanas dispersas, pero de manera diferente.