#caché

NetKV: Instancias de decodificación conscientes de red para LLMs desagregados

NetKV reduce hasta un 21.2% el tiempo hasta el primer token en inferencia LLM desagregada, superando schedulers tradicionales sin cambios en hardware.

2026-06-03 · 2 min

dLLM-Cache: Caché Adaptativa para Modelos de Lenguaje con Difusión

dLLM-Cache acelera hasta 9x modelos de difusión con caché adaptativa, sin entrenamiento y con latencia cercana a modelos autoregresivos.

2026-06-03 · 2 min

KVarN: Cuantificación de caché KV con normalización de varianza

Reduce errores en razonamiento con KVarN. Cuantificación KV de 2 bits que optimiza la memoria y mejora el rendimiento en modelos de lenguaje.

2026-06-03 · 2 min

VaSE: Evicción de Caché KV Estocástica Consciente del Valor

Descubre VaSE, un método de evicción de caché KV que protege valores grandes y usa estocasticidad para mejorar precisión en modelos de razonamiento. Reduce memoria 4x sin perder rendimiento.

2026-06-03 · 1 min

Multi-Segment Attention: Cómo optimizar la caché KV para servidores LLM más rápidos

Descubre cómo AsymCache reduce el tiempo de respuesta de LLM hasta 2x mediante una gestión eficiente de la caché KV con Multi-Segment Attention.

2026-06-03 · 2 min

Fast-dLLM++: Perfil Fréchet para Inferencia más Rápida de LLM Difusión

Fast-dLLM++ acelera inferencia de LLM difusivos sin modificar modelo, aprovechando confianza heterogénea para lograr 37% más rendimiento sin perder precisión.

2026-06-03 · 2 min

No seas tan Stief: optimización de KV Cache en la variedad de Stiefel

Descubre cómo StiefAttention comprime el caché KV con aproximación de rango bajo en la variedad de Stiefel, mejorando precisión y eficiencia en modelos de lenguaje.

2026-06-03 · 2 min

ParisKV: Recuperación de caché KV rápida y robusta ante deriva para LLMs largos

ParisKV: recuperación de caché KV para LLMs largos, hasta 44x más rápido y robusto ante deriva. Optimiza tu inferencia.

2026-06-03 · 1 min

Modelos de Lenguaje Esotéricos: LLMs de Difusión de Cualquier Orden

Eso-LMs: modelos de lenguaje que combinan AR y MDM con atención causal y caché KV, permitiendo generación paralela e inferencia eficiente. Nuevo estado del arte.

2026-06-03 · 2 min

StreamingVLM: Comprensión en tiempo real para transmisiones de video infinitas

StreamingVLM revoluciona la comprensión de video en tiempo real: procesa flujos infinitos con solo 8 FPS en un H100, superando a GPT-4O mini. ¡Descubre su arquitectura!

2026-06-02 · 2 min

Hacia la robustez óptima en paginación asistida por aprendizaje

Nuevo marco logra robustez óptima en paginación asistida por aprendizaje, cerrando brecha al ratio H_k. Resultados experimentales demuestran su eficacia.

2026-06-02 · 2 min

Observación, no predicción: scheduling desagregado por conversación

Conoce ConServe: programación por conversación para agentes LLM, reduce latencia 51% y mejora eficiencia energética en servidores IA.

2026-06-02 · 2 min

ForesightKV: Evicción óptima de caché KV en modelos de razonamiento

ForesightKV optimiza la evicción de caché KV en modelos de razonamiento, superando métodos previos con la mitad del presupuesto y aprendizaje combinado.

2026-06-02 · 2 min

LRAgent: Caché KV Compartido Eficiente para Agentes Multi-LoRA

Descubre cómo LRAgent comparte eficientemente la caché KV entre agentes Multi-LoRA, reduciendo memoria y cómputo sin perder precisión. ¡Optimiza tus LLMs!

2026-06-02 · 3 min

Vegas: Decodificación Auto-Especulativa con Atención Dispersa Verificada

Descubre Vegas: acelera LLMs hasta 2.81x usando atención dispersa guiada por verificación. Sin pérdida, código abierto.

2026-06-02 · 2 min

WildCat: Atención casi lineal en teoría y práctica

Descubre WildCat, un nuevo método de atención que logra error mínimo en tiempo casi lineal. Ideal para modelos de IA con secuencias largas. ¡Lee más!

2026-06-02 · 3 min

Fragnesia y amigos: Vulnerabilidades de caché de página que regresan

Descubre cómo las vulnerabilidades Copy-Fail y DirtyDecrypt afectan el kernel y cómo OpenShift las mitiga con defensa en profundidad. Lectura imprescindible.

2026-06-02 · 2 min

Grokers: Comprensión inductiva e inteligencia en escritura sobre grafos tipificados

Descubre Grokers: arquitectura que logra comprensión persistente de grafos tipificados con inteligencia en escritura, eliminando costos de LM en consultas. ¡100% hits en KV-cache!

2026-06-02 · 3 min

BudgetDraft: Entrenamiento Multi-Vista para Decodificación Especulativa Dispersa

Descubre BudgetDraft: entrenamiento multi-vista acelera decodificación especulativa con KV disperso hasta 6.55x en contextos de 4K a 16K, optimizando memoria.

2026-06-02 · 2 min

Leyline: Directivas de Caché KV para Inferencia Agentiva

Leyline introduce directivas para editar la caché KV sin re-prefill completo. Reduce latencia hasta 241 ms y mejora tasa de resolución en +14.3 pp.

2026-06-02 · 3 min