QuBLAST: Cuantización con Compresión por Bloques y Escalado de Activaciones
Descubre QuBLAST, un framework que reduce el tamaño de LLMs hasta un 45% mediante cuantización por bloques y escalado de activaciones, sin perder rendimiento.
Descubre QuBLAST, un framework que reduce el tamaño de LLMs hasta un 45% mediante cuantización por bloques y escalado de activaciones, sin perder rendimiento.
Aprende cómo el método LA-LQR dirige modelos de video reduciendo contenido dañino sin perder calidad. Control óptimo lineal de orden reducido.
¿Puede un modelo transmitir activaciones a otro? En nuestro experimento con Pythia, la alineación no basta para comunicación causal. Resultado negativo.
Descubre la inicialización Lyapunov para redes Leaky ReLU: cómo lograr estabilidad en activaciones y mejorar el aprendizaje en redes profundas.
WUSH mejora la cuantización de LLMs hasta +2.8 puntos en W4A4. Transformaciones adaptativas casi óptimas para despliegue eficiente en GPU.
Descubre GNMR, un controlador ligero que estabiliza el entrenamiento de modelos de lenguaje en baja precisión sin cambiar el formato numérico. Mejora la calidad y reduce costes.
Los SuperActivadores: tokens de cola en Transformers que señalan conceptos con alta fiabilidad, mejorando la detección en 0.14 F1. ¡Descubre el mecanismo!
Descubre cómo los valores atípicos en las activaciones neuronales provocan la muerte de características en autoencoders dispersos y cómo solucionarlo con centrado de media.