#transformer

Aprendizaje sin entrenamiento: Dinámica implícita del aprendizaje en contexto

Descubre cómo los transformers aprenden en contexto sin entrenamiento: la dinámica implícita que modifica pesos MLP durante la inferencia.

2026-06-03 · 2 min

NAtS-L: Búsqueda de Atención Neuronal para Modelos Híbridos por Token

Descubre cómo NAtS-L optimiza transformers combinando atención lineal y softmax por token, reduciendo coste sin perder expresividad en contextos largos.

2026-06-03 · 2 min

Estimación del tiempo de dispersión de FRBs con Transformer multimodal

Nuevo modelo deep learning estima tiempo de dispersión de FRBs con 94% precisión, acelerando análisis astrofísico.

2026-06-03 · 2 min

Segmentación eficiente del plexo coroideo en EM con transformers

Descubre cómo un nuevo método basado en SwinUNETR segmenta el plexo coroideo en esclerosis múltiple con alta precisión y reduce el coste computacional un 99%.

2026-06-03 · 2 min

Supresión No Máxima Aprendida para Detección 3D

Descubre cómo el filtrado aprendido con atención transformador y GossipNet reemplaza el NMS tradicional para mejorar la detección 3D LiDAR, aumentando mAP y NDS.

2026-06-03 · 2 min

Formalizando el problema de vinculación en visión artificial

Formalizamos el problema de vinculación en visión artificial. Mide la información de vinculación en Vision Transformers para mejorar el reconocimiento.

2026-06-03 · 2 min

Humanoid-GPT: Escalando datos y estructura para seguimiento zero-shot

Humanoid-GPT escala datos y estructura para seguimiento zero-shot de movimientos. Descubre cómo logra generalización sin precedentes.

2026-06-03 · 2 min

DeMuon: Muon Descentralizado para Optimización de Matrices en Grafos

DeMuon: primer método descentralizado para optimización de matrices en grafos con garantías. Supera a otros en entrenamiento de transformers.

2026-06-03 · 1 min

NVIDIA Cosmos 3: modelo unificado de razonamiento físico, mundos y acciones

NVIDIA Cosmos 3 unifica razonamiento físico, generación de mundos y acciones en un solo modelo abierto. Ideal para robótica y vehículos autónomos.

2026-06-03 · 4 min

Escalando MARL para Seguimiento Acústico Submarino con Vehículos Autónomos

Descubre cómo aceleración GPU 30,000x y Transformers entrenan flotas de vehículos autónomos para seguimiento acústico submarino con errores <5m.

2026-06-03 · 2 min

Aprendiendo el vecindario: Pretraining multimodal libre de contraste molecular

C-FREE integra 2D y 3D en grafos moleculares con pretraining auto-supervisado sin contraste, superando modelos en MoleculeNet.

2026-06-03 · 2 min

DeMuon: Optimización Matricial Descentralizada en Grafos

Descubre DeMuon, el primer método descentralizado para optimización matricial en grafos con garantías de convergencia. Mejora el entrenamiento de transformers.

2026-06-03 · 2 min

Marco robusto y explicable con Transformers para detectar phishing

Descubre cómo un marco basado en Transformers usa entrenamiento adversarial y explicabilidad (LIME, SHAP, IG) para detectar phishing en correos de forma fiable.

2026-06-03 · 2 min

Destilar luego Reemplazar: Modelos Híbridos de Atención Eficientes

DtR transforma transformers preentrenados en modelos híbridos eficientes mediante destilación y reemplazo de capas. Obtén precisión con menor costo computacional.

2026-06-03 · 1 min

Convoluciones cortas dinámicas mejoran los Transformers

Aprende cómo las convoluciones dinámicas mejoran los Transformers con ventajas en eficiencia. Implementación con kernels Triton.

2026-06-03 · 2 min

Pronóstico de sismogramas de tres componentes con transformers

Descubre cómo SeismoGPT, un modelo transformer, pronostica sismogramas triaxiales. Aplicaciones en alerta sísmica y mitigación de desastres.

2026-06-03 · 2 min

Trans GAN-WT: detección anómala con extracción de características y aprendizaje interactivo

El modelo TransGAN-WT combina Transformer y GAN para detectar anomalías en turbinas eólicas con F1 del 96.1% y FPR del 0.06%. Optimiza el mantenimiento predictivo.

2026-06-03 · 2 min

CoralBay: modelo base de TC con auto-supervisión

Descubre CoralBay, modelo auto-supervisado para TC que aprende representaciones 3D. Mejora el diagnóstico radiológico con un nuevo benchmark.

2026-06-03 · 1 min

Localidad no implica accesibilidad: reparación de bordes en atención causal

Descubre cómo la atención causal dispersa por bloques puede desconectar tokens adyacentes y cómo reparar los bordes con una solución eficiente.

2026-06-03 · 2 min

Capacidad Representacional: Límites Geométricos en Transformers

Descubre cómo la dimensión del modelo establece los límites geométricos para la representación de características en transformers, y cómo estimar la capacidad real de direcciones ortogonales.

2026-06-03 · 2 min