#cuantización

Cuantización y características interpretables: análisis con autoencoders dispersos

La cuantización no destruye todas las características interpretables: un análisis revela que el 62% persiste en INT6, pero las métricas engañan.

2026-06-03 · 2 min

Inferencia INT8 consciente de picos para modelos de lenguaje spike en CPU

La inferencia INT8 consciente de picos acelera modelos spike en CPU, superando a TinyLlama con 22.63 tokens/s y reduciendo memoria.

2026-06-03 · 2 min

llama.cpp b9455 alcanza a vLLM: 70 t/s en 2x3090 con Qwen 27B

Descubre cómo llama.cpp b9455 iguala la velocidad de vLLM en 2x3090 con Qwen 27B. 70 t/s en decodificación y prefill ultrarrápido para agentes.

2026-06-03 · 3 min

Float8@2bits: compresión de modelos sin datos vía codificación de entropía

EntQuant comprime modelos de 70B parámetros en solo 10 minutos sin datos de calibración, alcanzando SOTA en compresión extrema a 2 bits con codificación de entropía.

2026-06-03 · 1 min

El grafo como regularización natural: revisitando la cuantización vectorial

Descubre cómo RGVQ evita el colapso del codebook en grafos usando regularización topológica y contrastiva para tokens más expresivos.

2026-06-02 · 2 min

El redondeo estocástico aumenta los valores singulares pequeños

El nuevo estudio muestra que el redondeo estocástico regulariza todo el espectro de valores singulares, no solo los más pequeños.

2026-06-02 · 3 min

Una visión algebraica de la expresividad de modelos recurrentes

Un enfoque algebraico unifica resultados contradictorios sobre la expresividad de modelos recurrentes: desde autómatas finitos hasta completitud de Turing.

2026-06-02 · 1 min

Más allá de lo discreto: complejidad muestral del STE en cuantización 1-bit

Primer análisis teórico de complejidad muestral del Straight-Through Estimator para cuantización 1-bit. Descubre por qué el tamaño de muestra es clave para su éxito.

2026-06-02 · 2 min

WUSH: Transformaciones Adaptativas Casi Óptimas para Cuantización de LLM

WUSH mejora la cuantización de LLMs hasta +2.8 puntos en W4A4. Transformaciones adaptativas casi óptimas para despliegue eficiente en GPU.

2026-06-02 · 1 min

Quartet II: Pre-entrenamiento de LLMs en NVFP4

Descubre Quartet II, el método que optimiza el pre-entrenamiento de LLMs en formato NVFP4 en GPUs Blackwell. Mayor precisión y velocidad en tus modelos.

2026-06-02 · 2 min

LASER: SVD consciente de pérdida y asignación de rango para modelos VL

Descubre cómo LASER logra una aceleración 2.3x en modelos visión-lenguaje con baja precisión, usando SVD consciente de pérdida y asignación de rango.

2026-06-02 · 2 min

GPTQ-intrinsic LoRA: Cuantización de baja precisión con adaptación de bajo rango

GPTQ-intrinsic LoRA: mejora la cuantización de baja precisión con corrección de bajo rango. Algoritmo casi óptimo para modelos grandes.

2026-06-02 · 2 min

GPTQ-intrinsic LoRA: algoritmo cuasióptimo para cuantización y adaptación de bajo rango

GPTQ-intrinsic LoRA combina cuantización de baja precisión y adaptación de bajo rango para comprimir redes neuronales. Algoritmo sin entrenamiento mejora modelos como Qwen3 y DeiT.

2026-06-02 · 2 min

Picos masivos en LLMs: vectores de sesgo y cuantización sin picos

Descubre cómo los picos masivos en LLMs son vectores de sesgo y cómo la cuantización sin picos revoluciona la eficiencia de los modelos de IA. ¡Optimiza tu AI!

2026-06-02 · 2 min

Los modelos de razonamiento cuantizados creen que necesitan pensar más, pero no

La cuantización agresiva reduce la precisión y alarga el razonamiento de los modelos de IA. Descubre cómo una penalización simple en tokens de 'overthinking' mejora la eficiencia.

2026-06-02 · 2 min

Cuantización Consciente del Producto Interno: Algoritmos Rápidos y Adaptativos

Descubre cómo los algoritmos de cuantización adaptativa preservan el producto interno de vectores, ofreciendo precisión y velocidad hasta 10 veces mayor.

2026-06-02 · 1 min

ProjQ: Compresión de LLM con Cuantización y Adaptadores

ProjQ revoluciona la compresión de LLMs al proyectar el ruido de cuantización en un subespacio de bajo rango. Obtén modelos más ligeros y eficientes con fine-tuning mejorado.

2026-06-02 · 2 min

Benchmark de 4 Transformers Ligeros para Detección de Fallas

Comparamos 4 transformers ligeros contra ML tradicional en 3 datasets reales. Solo TinyBERT-4L sobrevivió a la cuantización y latencia. Descubre qué modelo usar en edge.

2026-06-02 · 3 min

BitsMoE: Asignación eficiente de bits para cuantización de MoE LLM

BitsMoE asigna bits inteligentemente en MoE LLM, logrando cuantización 2 bits con 27.83% más precisión, 12.3x más rápida y 1.76x más velocidad.

2026-06-02 · 2 min

Estimación de información mutua entre series temporales y secuencias de eventos

Estimador no paramétrico de información mutua entre series temporales y eventos discretos. Mejora precisión y robustez en diversas tareas de análisis.

2026-06-02 · 2 min