#activaciones

QuBLAST: Cuantización con Compresión por Bloques y Escalado de Activaciones

Descubre QuBLAST, un framework que reduce el tamaño de LLMs hasta un 45% mediante cuantización por bloques y escalado de activaciones, sin perder rendimiento.

2026-06-04 · 3 min

Direccionamiento de activaciones en modelos de video con control óptimo reducido

Aprende cómo el método LA-LQR dirige modelos de video reduciendo contenido dañino sin perder calidad. Control óptimo lineal de orden reducido.

2026-06-04 · 4 min

Resultado negativo: transferencia de activación entre modelos Pythia

¿Puede un modelo transmitir activaciones a otro? En nuestro experimento con Pythia, la alineación no basta para comunicación causal. Resultado negativo.

2026-06-03 · 2 min

Inicialización Óptima en Redes Profundas: Lyapunov y Leaky ReLU

Descubre la inicialización Lyapunov para redes Leaky ReLU: cómo lograr estabilidad en activaciones y mejorar el aprendizaje en redes profundas.

2026-06-03 · 2 min

WUSH: Transformaciones Adaptativas Casi Óptimas para Cuantización de LLM

WUSH mejora la cuantización de LLMs hasta +2.8 puntos en W4A4. Transformaciones adaptativas casi óptimas para despliegue eficiente en GPU.

2026-06-02 · 1 min

GNMR: Control de estabilidad en tiempo real para entrenar LLM en baja precisión

Descubre GNMR, un controlador ligero que estabiliza el entrenamiento de modelos de lenguaje en baja precisión sin cambiar el formato numérico. Mejora la calidad y reduce costes.

2026-06-02 · 3 min

Mecanismo SuperActivador: Transformers concentran señales de concepto en cola

Los SuperActivadores: tokens de cola en Transformers que señalan conceptos con alta fiabilidad, mejorando la detección en 0.14 F1. ¡Descubre el mecanismo!

2026-06-01 · 3 min

Relación entre activaciones atípicas y muerte de características en SAE

Descubre cómo los valores atípicos en las activaciones neuronales provocan la muerte de características en autoencoders dispersos y cómo solucionarlo con centrado de media.

2026-06-01 · 2 min