LiftQuant: Ancho de bits continuo en LLM mediante elevación dimensional
Descubre LiftQuant: cuantización continua de LLM que permite comprimir modelos de 70B a tan solo 2.4 bits, ajustándose perfectamente a tu memoria GPU.
Descubre LiftQuant: cuantización continua de LLM que permite comprimir modelos de 70B a tan solo 2.4 bits, ajustándose perfectamente a tu memoria GPU.
Descubre MisoTTS, el modelo de voz expresiva de 8B parámetros con pesos abiertos. Genera habla natural a partir de texto y audio contexto. ¡Lee más!
Descubre cómo un nuevo enfoque de NAS optimiza arquitectura y cuantización en LLM, logrando hasta 1.4x más velocidad y 6% más precisión en tareas de razonamiento. ¡Mejora tus despliegues en edge!
dMX asigna automáticamente el formato de punto flotante óptimo por capa en LLMs, mejorando rendimiento y eficiencia. Descubre cómo esta técnica supera a métodos tradicionales.
Recover-LoRA recupera hasta 95% de precisión en modelos de 2 bits usando adaptación de bajo rango y destilación con solo 10k datos sintéticos.
Recover-LoRA recupera hasta un 95% de precisión en modelos de lenguaje cuantizados a 2 bits usando destilación de conocimiento con datos sintéticos. Ideal para despliegue en edge.
Descubre YAQA: algoritmo de redondeo adaptativo que reduce el error de cuantización un 30% frente a GPTQ. Cotas de error garantizadas sin coste de inferencia.
Descubre YAQA, el algoritmo de redondeo adaptativo que reduce el error de cuantización un 30% sin sobrecarga. Preserva la distribución del modelo original.
Descubre RAVQ-HoloNet, método de compresión holográfica que reduce hasta 33% la tasa de bits y mejora calidad. Ideal para AR/VR de alta fidelidad.
SFMP: cuantización mixta sin búsqueda y amigable con hardware para LLMs. Reduce costos y mejora eficiencia.
Descubre AlphaQ, un método sin calibración que asigna bits a expertos en MoE basado en la pesadez espectral. Logra compresión 4x con precisión casi total.
Descubre MorphoQuant, un marco de cuantización que mantiene la precisión en modelos omni-modales con solo 4 bits, superando a modelos de 16 bits en ScienceQA.
Descubre cómo MaskAQ utiliza alineación de atención enmascarada para cuantizar Vision Transformers sin datos reales, mejorando la seguridad y el rendimiento.
DSIRM mejora la relevancia en búsqueda de e-commerce con identificadores semánticos discretos y cuantización contrastiva, logrando +1.54% AUC y +0.13% UCTR.
Descubre QuBLAST, un framework que reduce el tamaño de LLMs hasta un 45% mediante cuantización por bloques y escalado de activaciones, sin perder rendimiento.
WaterSIC: algoritmo de cuantización casi óptimo que supera a GPTQ. Nuevo récord en LLMs Llama y Qwen para 1-4 bits. ¡Mejora la eficiencia!
Nuevo marco FoundCAC corrige aberraciones de lente sin referencia, usando preentrenamiento LensLib y prioridades discretas para restauración de imagen superior.
Descubre cómo los LLMs representan la suma geométricamente y por qué cometen errores. Un nuevo estudio revela la estructura oculta de la aritmética.
Descubre ReaLM, un innovador marco que une embeddings de KG y LLMs mediante cuantización residual para mejorar la completación de grafos. ¡Rendimiento líder!
Descubre MuLoCo, el optimizador con Muon que supera a DiLoCo, permite mayores batch sizes y mejor escalabilidad en entrenamiento de modelos de lenguaje.