#kv · DeepCodeNews

QEMU evalúa flexibilizar la prohibición de contribuciones de IA

QEMU reconsidera su prohibición total de código generado por IA. Paolo Bonzini propone permitir ayuda limitada en áreas de bajo riesgo. Descubre los detalles.

2026-06-01 · 2 min

OBCache: poda óptima de caché KV para LLMs de contexto largo

Descubre OBCache, la técnica de poda de caché KV que optimiza la memoria en LLMs para inferencia en contextos largos sin sacrificar precisión.

2026-06-01 · 2 min

Evita el vaivén: Verificación con preservación de contexto

Descubre COVER: verificación eficiente que elimina oscilaciones y acelera la inferencia en decodificación difusiva revocable.

2026-06-01 · 2 min

La apuesta de $20M de Tensormesh: La reutilización de KV-Cache se convierte en una categoría de producto

Tensormesh invierte 20 millones de dólares para transformar la reutilización de KV-Cache en una categoría de producto, impulsando la optimización de eficiencia en inteligencia artificial.

2026-05-30 · 3 min

Moment-KV: Compresión de Caché KV en Tiempo de Decodificación Basada en Momento para Generación Larga

2026-05-30 · 1 min

VideoMLA: Caché KV latente de bajo rango para difusión de video autoregresiva a escala de minutos

2026-05-29 · 2 min

Cuantización Multiplicativa de Cuaterniones de Hurwitz para la Compresión de Caché KV

Cuantización multiplicativa de cuaterniones de Hurwitz para compresión de caché KV. Mejora la eficiencia de memoria en modelos de lenguaje sin perder precisión.

2026-05-29 · 2 min

Aumentar la atención con memoria de decaimiento exponencial mejora la esparcidad KV consciente de la consulta

Atención eficiente con memoria de decaimiento exponencial para esparcidad KV consciente de consulta, reduciendo memoria y acelerando inferencia en modelos.

2026-05-28 · 2 min

Compactación rápida de KV mediante coincidencia de atención

Compresión rápida de caché KV con atención: optimiza velocidad y eficiencia en modelos de lenguaje sin sacrificar precisión.

2026-05-28 · 2 min

xKV: Compresión de la Caché KV entre Capas mediante Extracción de Vectores Singulares Alineados

Aprende sobre la compresión de caché KV entre capas con vectores singulares alineados. Una técnica eficiente para reducir el uso de memoria en modelos de lenguaje manteniendo la precisión.

2026-05-28 · 2 min

Las claves cuantizadas roban la atención: Corrección de sesgo para la compresión de la caché KV en difusión de video

Compresión de caché KV: corrección de sesgo en claves cuantizadas para difusión de video. Optimiza el rendimiento y reduce el consumo de memoria.

2026-05-27 · 2 min