#transformer

El análogo de Grokking en el preentrenamiento de modelos de lenguaje

Descubre cómo el fenómeno Grokking aparece en el preentrenamiento de LLMs, revelando una generalización gramatical retardada. Análisis de conceptos y atención en cabezas.

2026-06-02 · 3 min

Repensando la granularidad: compresión de LLM con SubFit

SubFit comprime LLMs a nivel de submódulos con selección no contigua. Mejora el equilibrio precisión-perplejidad, acelera inferencia y ahorra memoria KV-cache. ¡Más eficiente!

2026-06-02 · 1 min

Benchmark de 4 Transformers Ligeros para Detección de Fallas

Comparamos 4 transformers ligeros contra ML tradicional en 3 datasets reales. Solo TinyBERT-4L sobrevivió a la cuantización y latencia. Descubre qué modelo usar en edge.

2026-06-02 · 3 min

Mitigando alucinaciones en LLMs saltando capas decodificadoras

Descubre cómo DeLask reduce las alucinaciones en modelos de lenguaje saltando capas decodificadoras problemáticas, mejorando la fiabilidad y consistencia de las respuestas.

2026-06-02 · 2 min

TriLens: Detección de Alucinaciones White-Box con Entropía por Capa

Descubre TriLens, un detector white-box que analiza la entropía por capas en modelos de lenguaje para identificar alucinaciones sin muestreo.

2026-06-02 · 2 min

Geometría ordinal emergente en Transformers entrenados con comparaciones locales

Una investigación revela que los Transformers aprenden inferencia transitiva mediante una geometría ordinal emergente, replicando el efecto de distancia simbólica observado en humanos y animales.

2026-06-02 · 2 min

Belief2-Attention: mejora en tareas de visión

Descubre cómo Belief2-Attention mejora la atención en visión usando dos componentes para clasificación y segmentación.

2026-06-02 · 2 min

DLLM-JEPA: Arquitectura JEPA para Modelos de Lenguaje con Difusión Enmascarada

DLLM-JEPA: nueva arquitectura que combina JEPA y difusión enmascarada para reducir FLOPs un 33% y ganar hasta 18.7% en precisión.

2026-06-02 · 2 min

Difusión de imágenes con geometría explícita del manifold de datos

MIND: modelo de difusión con geometría explícita del manifold. Reduce FID a 2.06 con solo 130M parámetros, superando a LlamaGen-3B. ¡Descubre cómo!

2026-06-02 · 2 min

Borrado geométrico con velocidad contrastiva en flujos rectificados

Descubre GEM: borrado conceptual en modelos generativos usando velocidad contrastiva y flujos rectificados para una eliminación segura.

2026-06-02 · 1 min

UF-AMA: marco unificado para reconocimiento multimodal de emociones

Descubre UF-AMA, un marco unificado que integra EEG y eye-tracking para reconocer emociones a través de sujetos y sesiones, logrando rendimiento SOTA.

2026-06-02 · 2 min

Transformers agentes aprenden a buscar con RL

Los transformers agentes aprenden a buscar en árboles mediante aprendizaje por refuerzo. Mecanismos de atención y generalización de profundidad.

2026-06-02 · 2 min

Clasificación de documentos visuales con enfoques multimodales

Descubre cómo los modelos multimodales superan a los LLM en clasificación de documentos visuales. La información visual es clave. Resultados RVL-CDIP.

2026-06-02 · 2 min

Zamba2-VL: Modelos de visión-lenguaje híbridos eficientes

Descubre Zamba2-VL, modelos de visión-lenguaje basados en Mamba2 que ofrecen rendimiento competitivo con un orden de magnitud menor en tiempo de respuesta. Ideal para edge.

2026-06-02 · 1 min

LALE: Arquitectura Transformer Ligera para Estimación de Cobertura Terrestre

Descubre LALE, la nueva arquitectura Transformer ligera que bate récords de eficiencia en segmentación de imágenes satelitales. Solo 1.6M parámetros.

2026-06-02 · 4 min

Mejora del alineamiento de representaciones visuales con GRPO

Descubre cómo VRPO mejora el alineamiento de representaciones en difusores mediante optimización por refuerzo, logrando +1.8 FID y 2.3x más rápido que REPA.

2026-06-02 · 1 min

Aprendizaje de representación invariante al comportamiento con Transformers en meta-RL offline

Nuevo framework integra representaciones invariantes y modelos mundiales con Transformers para superar desafíos de generalización en meta-RL offline. Mayor estabilidad y adaptación.

2026-06-02 · 2 min

Olvida la Atención: Conciencia de Importancia es Todo

SISA: nuevo híbrido SSM-atención. Logra 17.3% en LAMBADA y recuperación perfecta en NIAH 7x más rápida que Transformers. ¡Descúbrelo!

2026-06-02 · 2 min

AEyeDE: Un marco de atribución basado en atención para detectar texto generado por IA

Descubre AEyeDE: detecta texto generado por IA con mapas de atención. Mayor precisión y robustez. Señal interpretable.

2026-06-02 · 1 min

Acelerar entrenamiento de Transformers con NVIDIA Apex y torch.amp

Descubre cómo acelerar el entrenamiento de Transformers usando NVIDIA Apex y torch.amp. Guía práctica con benchmarks de FusedAdam, FusedLayerNorm y rendimiento.

2026-06-02 · 1 min