Cuantización y características interpretables: análisis con autoencoders dispersos
La cuantización no destruye todas las características interpretables: un análisis revela que el 62% persiste en INT6, pero las métricas engañan.
La cuantización no destruye todas las características interpretables: un análisis revela que el 62% persiste en INT6, pero las métricas engañan.
La inferencia INT8 consciente de picos acelera modelos spike en CPU, superando a TinyLlama con 22.63 tokens/s y reduciendo memoria.
Descubre cómo llama.cpp b9455 iguala la velocidad de vLLM en 2x3090 con Qwen 27B. 70 t/s en decodificación y prefill ultrarrápido para agentes.
EntQuant comprime modelos de 70B parámetros en solo 10 minutos sin datos de calibración, alcanzando SOTA en compresión extrema a 2 bits con codificación de entropía.
Descubre cómo RGVQ evita el colapso del codebook en grafos usando regularización topológica y contrastiva para tokens más expresivos.
El nuevo estudio muestra que el redondeo estocástico regulariza todo el espectro de valores singulares, no solo los más pequeños.
Un enfoque algebraico unifica resultados contradictorios sobre la expresividad de modelos recurrentes: desde autómatas finitos hasta completitud de Turing.
Primer análisis teórico de complejidad muestral del Straight-Through Estimator para cuantización 1-bit. Descubre por qué el tamaño de muestra es clave para su éxito.
WUSH mejora la cuantización de LLMs hasta +2.8 puntos en W4A4. Transformaciones adaptativas casi óptimas para despliegue eficiente en GPU.
Descubre Quartet II, el método que optimiza el pre-entrenamiento de LLMs en formato NVFP4 en GPUs Blackwell. Mayor precisión y velocidad en tus modelos.
Descubre cómo LASER logra una aceleración 2.3x en modelos visión-lenguaje con baja precisión, usando SVD consciente de pérdida y asignación de rango.
GPTQ-intrinsic LoRA: mejora la cuantización de baja precisión con corrección de bajo rango. Algoritmo casi óptimo para modelos grandes.
GPTQ-intrinsic LoRA combina cuantización de baja precisión y adaptación de bajo rango para comprimir redes neuronales. Algoritmo sin entrenamiento mejora modelos como Qwen3 y DeiT.
Descubre cómo los picos masivos en LLMs son vectores de sesgo y cómo la cuantización sin picos revoluciona la eficiencia de los modelos de IA. ¡Optimiza tu AI!
La cuantización agresiva reduce la precisión y alarga el razonamiento de los modelos de IA. Descubre cómo una penalización simple en tokens de 'overthinking' mejora la eficiencia.
Descubre cómo los algoritmos de cuantización adaptativa preservan el producto interno de vectores, ofreciendo precisión y velocidad hasta 10 veces mayor.
ProjQ revoluciona la compresión de LLMs al proyectar el ruido de cuantización en un subespacio de bajo rango. Obtén modelos más ligeros y eficientes con fine-tuning mejorado.
Comparamos 4 transformers ligeros contra ML tradicional en 3 datasets reales. Solo TinyBERT-4L sobrevivió a la cuantización y latencia. Descubre qué modelo usar en edge.
BitsMoE asigna bits inteligentemente en MoE LLM, logrando cuantización 2 bits con 27.83% más precisión, 12.3x más rápida y 1.76x más velocidad.
Estimador no paramétrico de información mutua entre series temporales y eventos discretos. Mejora precisión y robustez en diversas tareas de análisis.