El análogo de Grokking en el preentrenamiento de modelos de lenguaje
Descubre cómo el fenómeno Grokking aparece en el preentrenamiento de LLMs, revelando una generalización gramatical retardada. Análisis de conceptos y atención en cabezas.
Descubre cómo el fenómeno Grokking aparece en el preentrenamiento de LLMs, revelando una generalización gramatical retardada. Análisis de conceptos y atención en cabezas.
SubFit comprime LLMs a nivel de submódulos con selección no contigua. Mejora el equilibrio precisión-perplejidad, acelera inferencia y ahorra memoria KV-cache. ¡Más eficiente!
Comparamos 4 transformers ligeros contra ML tradicional en 3 datasets reales. Solo TinyBERT-4L sobrevivió a la cuantización y latencia. Descubre qué modelo usar en edge.
Descubre cómo DeLask reduce las alucinaciones en modelos de lenguaje saltando capas decodificadoras problemáticas, mejorando la fiabilidad y consistencia de las respuestas.
Descubre TriLens, un detector white-box que analiza la entropía por capas en modelos de lenguaje para identificar alucinaciones sin muestreo.
Una investigación revela que los Transformers aprenden inferencia transitiva mediante una geometría ordinal emergente, replicando el efecto de distancia simbólica observado en humanos y animales.
Descubre cómo Belief2-Attention mejora la atención en visión usando dos componentes para clasificación y segmentación.
DLLM-JEPA: nueva arquitectura que combina JEPA y difusión enmascarada para reducir FLOPs un 33% y ganar hasta 18.7% en precisión.
MIND: modelo de difusión con geometría explícita del manifold. Reduce FID a 2.06 con solo 130M parámetros, superando a LlamaGen-3B. ¡Descubre cómo!
Descubre GEM: borrado conceptual en modelos generativos usando velocidad contrastiva y flujos rectificados para una eliminación segura.
Descubre UF-AMA, un marco unificado que integra EEG y eye-tracking para reconocer emociones a través de sujetos y sesiones, logrando rendimiento SOTA.
Los transformers agentes aprenden a buscar en árboles mediante aprendizaje por refuerzo. Mecanismos de atención y generalización de profundidad.
Descubre cómo los modelos multimodales superan a los LLM en clasificación de documentos visuales. La información visual es clave. Resultados RVL-CDIP.
Descubre Zamba2-VL, modelos de visión-lenguaje basados en Mamba2 que ofrecen rendimiento competitivo con un orden de magnitud menor en tiempo de respuesta. Ideal para edge.
Descubre LALE, la nueva arquitectura Transformer ligera que bate récords de eficiencia en segmentación de imágenes satelitales. Solo 1.6M parámetros.
Descubre cómo VRPO mejora el alineamiento de representaciones en difusores mediante optimización por refuerzo, logrando +1.8 FID y 2.3x más rápido que REPA.
Nuevo framework integra representaciones invariantes y modelos mundiales con Transformers para superar desafíos de generalización en meta-RL offline. Mayor estabilidad y adaptación.
SISA: nuevo híbrido SSM-atención. Logra 17.3% en LAMBADA y recuperación perfecta en NIAH 7x más rápida que Transformers. ¡Descúbrelo!
Descubre AEyeDE: detecta texto generado por IA con mapas de atención. Mayor precisión y robustez. Señal interpretable.
Descubre cómo acelerar el entrenamiento de Transformers usando NVIDIA Apex y torch.amp. Guía práctica con benchmarks de FusedAdam, FusedLayerNorm y rendimiento.