Interpreto: Biblioteca de Explicabilidad para Transformers
Interpreto: biblioteca Python de código abierto para explicar modelos transformer de HuggingFace. Ofrece atribuciones y explicaciones por conceptos para clasifi
Interpreto: biblioteca Python de código abierto para explicar modelos transformer de HuggingFace. Ofrece atribuciones y explicaciones por conceptos para clasifi
Descubre cómo afinar modelos de atención lineal sin perder el aprendizaje en contexto. Consejos teóricos para mejorar el rendimiento zero-shot.
Descubre por qué no existen límites computables de generalización de longitud para transformers y C-RASP, y cómo afecta al aprendizaje automático.
Un nuevo marco de atribución monosemántica estabiliza explicaciones en modelos de lenguaje para diagnósticos de Alzheimer, mejorando la confianza.
Descubre cómo el Transformer SMT-GraphFormer predice embarques y desembarques en autobuses con precisión superior, superando modelos tabulares tradicionales. Ideal para planificación urbana.
Transformers con normalización de capa aprenden el método de potencia por gradiente descendente, revelando un sesgo algorítmico que mejora la predicción de componentes principales.
Descubre cómo la estructura de la tarea invierte la codificación de estado en modelos como Transformers y Mamba. Un estudio revela patrones opuestos en paridad y Dyck.
MoPE: codificación posicional con wavelet Morlet que unifica sinusoides y RoPE, aprende frecuencias y localidad. ¡Rendimiento superior en transformers!
Descubre cómo la escala en modelos de secuencias simpliciales se correlaciona con estructura y rendimiento en transformers. Un estudio revela patrones predecibles.
Descubre FAiT: supera el sesgo de baja frecuencia y modula dinámicamente frecuencias para pronósticos precisos de series temporales multivariables.
Descubre MoPE, un nuevo marco de codificación posicional con wavelets Morlet que unifica sinusoides y RoPE, mejorando atención y rendimiento en lenguaje.
¿Cómo se relacionan las leyes de escalado con las representaciones internas en deep learning? Este estudio revela una correlación entre rendimiento y estructura
FAiT: Transformer invertido que corrige el sesgo de baja frecuencia en pronóstico de series temporales multivariadas con modulación dinámica
Descubre ReFLEX, Transformer que elimina ruido CSI en MIMO-OFDM con asignaciones RB variables, mejorando el BLER en 2-3 dB en canales 3GPP sin reentrenamiento.
CART es un transformer recurrente que reduce parámetros al reutilizar un bloque central. Con estabilidad aprendida vía puerta LTI, ofrece resultados competitivos en GPU de consumo.
¿Sabías que los transformers sin codificación posicional pueden ser Turing completos? La clave está en la ventana deslizante. Descúbrelo.
¿Funciona el ML para trading de Bitcoin? Analizamos XGBoost, LSTM e iTransformer y cómo un filtro por costos de transacción mejora los resultados.
Descubre ChWDTA, un nuevo modelo que combina CNN y transformer con wavelets para lograr reducciones BD-rate de hasta 22% en compresión de imágenes.
Descubre cómo las codificaciones posicionales anclan la estructura espacial en Vision Transformers y mejoran la robustez. La métrica SSDC revela la geometría.
Descubre cómo el fenómeno Grokking aparece en el preentrenamiento de LLMs, revelando una generalización gramatical retardada. Análisis de conceptos y atención en cabezas.