#cuantización

WaterSIC: Cuantización lineal casi óptima (teoría de la información)

WaterSIC: algoritmo de cuantización casi óptimo que supera a GPTQ. Nuevo récord en LLMs Llama y Qwen para 1-4 bits. ¡Mejora la eficiencia!

2026-06-03 · 2 min

Corrección ciega de aberraciones de lente mediante preentrenamiento LensLib

Nuevo marco FoundCAC corrige aberraciones de lente sin referencia, usando preentrenamiento LensLib y prioridades discretas para restauración de imagen superior.

2026-06-03 · 3 min

La forma de la suma: estructuras geométricas de la aritmética en LLMs

Descubre cómo los LLMs representan la suma geométricamente y por qué cometen errores. Un nuevo estudio revela la estructura oculta de la aritmética.

2026-06-03 · 2 min

ReaLM: Puente de Cuantización Residual entre Embeddings de KG y LLMs

Descubre ReaLM, un innovador marco que une embeddings de KG y LLMs mediante cuantización residual para mejorar la completación de grafos. ¡Rendimiento líder!

2026-06-03 · 2 min

MuLoCo: Muon como optimizador interno práctico para DiLoCo

Descubre MuLoCo, el optimizador con Muon que supera a DiLoCo, permite mayores batch sizes y mejor escalabilidad en entrenamiento de modelos de lenguaje.

2026-06-03 · 2 min

Cuantización y características interpretables: análisis con autoencoders dispersos

La cuantización no destruye todas las características interpretables: un análisis revela que el 62% persiste en INT6, pero las métricas engañan.

2026-06-03 · 2 min

Inferencia INT8 consciente de picos para modelos de lenguaje spike en CPU

La inferencia INT8 consciente de picos acelera modelos spike en CPU, superando a TinyLlama con 22.63 tokens/s y reduciendo memoria.

2026-06-03 · 2 min

llama.cpp b9455 alcanza a vLLM: 70 t/s en 2x3090 con Qwen 27B

Descubre cómo llama.cpp b9455 iguala la velocidad de vLLM en 2x3090 con Qwen 27B. 70 t/s en decodificación y prefill ultrarrápido para agentes.

2026-06-03 · 3 min

Float8@2bits: compresión de modelos sin datos vía codificación de entropía

EntQuant comprime modelos de 70B parámetros en solo 10 minutos sin datos de calibración, alcanzando SOTA en compresión extrema a 2 bits con codificación de entropía.

2026-06-03 · 1 min

El grafo como regularización natural: revisitando la cuantización vectorial

Descubre cómo RGVQ evita el colapso del codebook en grafos usando regularización topológica y contrastiva para tokens más expresivos.

2026-06-02 · 2 min

El redondeo estocástico aumenta los valores singulares pequeños

El nuevo estudio muestra que el redondeo estocástico regulariza todo el espectro de valores singulares, no solo los más pequeños.

2026-06-02 · 3 min

Una visión algebraica de la expresividad de modelos recurrentes

Un enfoque algebraico unifica resultados contradictorios sobre la expresividad de modelos recurrentes: desde autómatas finitos hasta completitud de Turing.

2026-06-02 · 1 min

Más allá de lo discreto: complejidad muestral del STE en cuantización 1-bit

Primer análisis teórico de complejidad muestral del Straight-Through Estimator para cuantización 1-bit. Descubre por qué el tamaño de muestra es clave para su éxito.

2026-06-02 · 2 min

WUSH: Transformaciones Adaptativas Casi Óptimas para Cuantización de LLM

WUSH mejora la cuantización de LLMs hasta +2.8 puntos en W4A4. Transformaciones adaptativas casi óptimas para despliegue eficiente en GPU.

2026-06-02 · 1 min

Quartet II: Pre-entrenamiento de LLMs en NVFP4

Descubre Quartet II, el método que optimiza el pre-entrenamiento de LLMs en formato NVFP4 en GPUs Blackwell. Mayor precisión y velocidad en tus modelos.

2026-06-02 · 2 min

LASER: SVD consciente de pérdida y asignación de rango para modelos VL

Descubre cómo LASER logra una aceleración 2.3x en modelos visión-lenguaje con baja precisión, usando SVD consciente de pérdida y asignación de rango.

2026-06-02 · 2 min

GPTQ-intrinsic LoRA: Cuantización de baja precisión con adaptación de bajo rango

GPTQ-intrinsic LoRA: mejora la cuantización de baja precisión con corrección de bajo rango. Algoritmo casi óptimo para modelos grandes.

2026-06-02 · 2 min

GPTQ-intrinsic LoRA: algoritmo cuasióptimo para cuantización y adaptación de bajo rango

GPTQ-intrinsic LoRA combina cuantización de baja precisión y adaptación de bajo rango para comprimir redes neuronales. Algoritmo sin entrenamiento mejora modelos como Qwen3 y DeiT.

2026-06-02 · 2 min

Picos masivos en LLMs: vectores de sesgo y cuantización sin picos

Descubre cómo los picos masivos en LLMs son vectores de sesgo y cómo la cuantización sin picos revoluciona la eficiencia de los modelos de IA. ¡Optimiza tu AI!

2026-06-02 · 2 min

Los modelos de razonamiento cuantizados creen que necesitan pensar más, pero no

La cuantización agresiva reduce la precisión y alarga el razonamiento de los modelos de IA. Descubre cómo una penalización simple en tokens de 'overthinking' mejora la eficiencia.

2026-06-02 · 2 min