WaterSIC: Cuantización lineal casi óptima (teoría de la información)
WaterSIC: algoritmo de cuantización casi óptimo que supera a GPTQ. Nuevo récord en LLMs Llama y Qwen para 1-4 bits. ¡Mejora la eficiencia!
WaterSIC: algoritmo de cuantización casi óptimo que supera a GPTQ. Nuevo récord en LLMs Llama y Qwen para 1-4 bits. ¡Mejora la eficiencia!
Nuevo marco FoundCAC corrige aberraciones de lente sin referencia, usando preentrenamiento LensLib y prioridades discretas para restauración de imagen superior.
Descubre cómo los LLMs representan la suma geométricamente y por qué cometen errores. Un nuevo estudio revela la estructura oculta de la aritmética.
Descubre ReaLM, un innovador marco que une embeddings de KG y LLMs mediante cuantización residual para mejorar la completación de grafos. ¡Rendimiento líder!
Descubre MuLoCo, el optimizador con Muon que supera a DiLoCo, permite mayores batch sizes y mejor escalabilidad en entrenamiento de modelos de lenguaje.
La cuantización no destruye todas las características interpretables: un análisis revela que el 62% persiste en INT6, pero las métricas engañan.
La inferencia INT8 consciente de picos acelera modelos spike en CPU, superando a TinyLlama con 22.63 tokens/s y reduciendo memoria.
Descubre cómo llama.cpp b9455 iguala la velocidad de vLLM en 2x3090 con Qwen 27B. 70 t/s en decodificación y prefill ultrarrápido para agentes.
EntQuant comprime modelos de 70B parámetros en solo 10 minutos sin datos de calibración, alcanzando SOTA en compresión extrema a 2 bits con codificación de entropía.
Descubre cómo RGVQ evita el colapso del codebook en grafos usando regularización topológica y contrastiva para tokens más expresivos.
El nuevo estudio muestra que el redondeo estocástico regulariza todo el espectro de valores singulares, no solo los más pequeños.
Un enfoque algebraico unifica resultados contradictorios sobre la expresividad de modelos recurrentes: desde autómatas finitos hasta completitud de Turing.
Primer análisis teórico de complejidad muestral del Straight-Through Estimator para cuantización 1-bit. Descubre por qué el tamaño de muestra es clave para su éxito.
WUSH mejora la cuantización de LLMs hasta +2.8 puntos en W4A4. Transformaciones adaptativas casi óptimas para despliegue eficiente en GPU.
Descubre Quartet II, el método que optimiza el pre-entrenamiento de LLMs en formato NVFP4 en GPUs Blackwell. Mayor precisión y velocidad en tus modelos.
Descubre cómo LASER logra una aceleración 2.3x en modelos visión-lenguaje con baja precisión, usando SVD consciente de pérdida y asignación de rango.
GPTQ-intrinsic LoRA: mejora la cuantización de baja precisión con corrección de bajo rango. Algoritmo casi óptimo para modelos grandes.
GPTQ-intrinsic LoRA combina cuantización de baja precisión y adaptación de bajo rango para comprimir redes neuronales. Algoritmo sin entrenamiento mejora modelos como Qwen3 y DeiT.
Descubre cómo los picos masivos en LLMs son vectores de sesgo y cómo la cuantización sin picos revoluciona la eficiencia de los modelos de IA. ¡Optimiza tu AI!
La cuantización agresiva reduce la precisión y alarga el razonamiento de los modelos de IA. Descubre cómo una penalización simple en tokens de 'overthinking' mejora la eficiencia.