#cuantización

LiftQuant: Ancho de bits continuo en LLM mediante elevación dimensional

Descubre LiftQuant: cuantización continua de LLM que permite comprimir modelos de 70B a tan solo 2.4 bits, ajustándose perfectamente a tu memoria GPU.

2026-06-04 · 2 min

Miso Labs lanza MisoTTS: modelo TTS emotivo de 8B pesos abiertos

Descubre MisoTTS, el modelo de voz expresiva de 8B parámetros con pesos abiertos. Genera habla natural a partir de texto y audio contexto. ¡Lee más!

2026-06-04 · 3 min

Compresión de LLM con optimización conjunta de arquitectura y cuantización

Descubre cómo un nuevo enfoque de NAS optimiza arquitectura y cuantización en LLM, logrando hasta 1.4x más velocidad y 6% más precisión en tareas de razonamiento. ¡Mejora tus despliegues en edge!

2026-06-04 · 2 min

dMX: Asignación Diferenciable de Precisión Mixta en Formatos de Punto Flotante

dMX asigna automáticamente el formato de punto flotante óptimo por capa en LLMs, mejorando rendimiento y eficiencia. Descubre cómo esta técnica supera a métodos tradicionales.

2026-06-04 · 3 min

Recover-LoRA: Recuperando precisión en cuantización agresiva de 2 bits

Recover-LoRA recupera hasta 95% de precisión en modelos de 2 bits usando adaptación de bajo rango y destilación con solo 10k datos sintéticos.

2026-06-04 · 2 min

Recover-LoRA: Recuperando precisión en modelos de 2 bits

Recover-LoRA recupera hasta un 95% de precisión en modelos de lenguaje cuantizados a 2 bits usando destilación de conocimiento con datos sintéticos. Ideal para despliegue en edge.

2026-06-04 · 2 min

Redondeo Adaptativo que Preserva el Modelo

Descubre YAQA: algoritmo de redondeo adaptativo que reduce el error de cuantización un 30% frente a GPTQ. Cotas de error garantizadas sin coste de inferencia.

2026-06-04 · 1 min

Redondeo Adaptativo que Preserva el Modelo

Descubre YAQA, el algoritmo de redondeo adaptativo que reduce el error de cuantización un 30% sin sobrecarga. Preserva la distribución del modelo original.

2026-06-04 · 1 min

RAVQ-HoloNet: Compresión Adaptativa de Hologramas con Cuantización Vectorial

Descubre RAVQ-HoloNet, método de compresión holográfica que reduce hasta 33% la tasa de bits y mejora calidad. Ideal para AR/VR de alta fidelidad.

2026-06-04 · 1 min

SFMP: Cuantización mixta fina y sin búsqueda para LLMs

SFMP: cuantización mixta sin búsqueda y amigable con hardware para LLMs. Reduce costos y mejora eficiencia.

2026-06-04 · 1 min

AlphaQ: Asignación de bits sin calibración para cuantización de MoE

Descubre AlphaQ, un método sin calibración que asigna bits a expertos en MoE basado en la pesadez espectral. Logra compresión 4x con precisión casi total.

2026-06-04 · 3 min

MorphoQuant: Cuantización Consciente de la Modalidad para LLMs Omni-Modales

Descubre MorphoQuant, un marco de cuantización que mantiene la precisión en modelos omni-modales con solo 4 bits, superando a modelos de 16 bits en ScienceQA.

2026-06-04 · 2 min

Alineación de Atención Enmascarada para Cuantización Sin Datos en ViTs

Descubre cómo MaskAQ utiliza alineación de atención enmascarada para cuantizar Vision Transformers sin datos reales, mejorando la seguridad y el rendimiento.

2026-06-04 · 2 min

DSIRM: Aprendizaje de Identificadores Semánticos para Relevancia en E-commerce

DSIRM mejora la relevancia en búsqueda de e-commerce con identificadores semánticos discretos y cuantización contrastiva, logrando +1.54% AUC y +0.13% UCTR.

2026-06-04 · 2 min

QuBLAST: Cuantización con Compresión por Bloques y Escalado de Activaciones

Descubre QuBLAST, un framework que reduce el tamaño de LLMs hasta un 45% mediante cuantización por bloques y escalado de activaciones, sin perder rendimiento.

2026-06-04 · 3 min

WaterSIC: Cuantización lineal casi óptima (teoría de la información)

WaterSIC: algoritmo de cuantización casi óptimo que supera a GPTQ. Nuevo récord en LLMs Llama y Qwen para 1-4 bits. ¡Mejora la eficiencia!

2026-06-03 · 2 min

Corrección ciega de aberraciones de lente mediante preentrenamiento LensLib

Nuevo marco FoundCAC corrige aberraciones de lente sin referencia, usando preentrenamiento LensLib y prioridades discretas para restauración de imagen superior.

2026-06-03 · 3 min

La forma de la suma: estructuras geométricas de la aritmética en LLMs

Descubre cómo los LLMs representan la suma geométricamente y por qué cometen errores. Un nuevo estudio revela la estructura oculta de la aritmética.

2026-06-03 · 2 min

ReaLM: Puente de Cuantización Residual entre Embeddings de KG y LLMs

Descubre ReaLM, un innovador marco que une embeddings de KG y LLMs mediante cuantización residual para mejorar la completación de grafos. ¡Rendimiento líder!

2026-06-03 · 2 min

MuLoCo: Muon como optimizador interno práctico para DiLoCo

Descubre MuLoCo, el optimizador con Muon que supera a DiLoCo, permite mayores batch sizes y mejor escalabilidad en entrenamiento de modelos de lenguaje.

2026-06-03 · 2 min