#inferencia llm

MiniPIC: Caché flexible independiente de posición en <100 líneas

MiniPIC: solución minimalista de caché KV mejora el throughput de prefill un 49% y reduce latencia. Ideal para cargas agentivas.

2026-06-12 · 2 min

Acelerando difusiones especulativas con verificación por bloques

Descubre cómo la verificación por bloques acelera las difusiones especulativas hasta un 6.3% sin entrenamiento adicional. Optimiza inferencia de modelos de IA.

2026-06-12 · 2 min

PoQ-Judge: Evaluación de calidad para LLM descentralizados

Descubre PoQ-Judge, el marco que evalúa la calidad de LLMs descentralizados sin referencias, reduciendo costos un 72.7% con mínima pérdida de calidad.

2026-06-11 · 2 min

TileFuse: Biblioteca de kernels de precisión mixta para LLM en NPUs AMD

TileFuse optimiza la inferencia de LLM en NPUs AMD con kernels fusionados de precisión mixta, logrando hasta 2x menor latencia y 64% menos consumo energético.

2026-06-11 · 2 min

SpenseGPT: Poda práctica de una sola pasada con GEMMs dispersos y densos

Descubre SpenseGPT: poda one-shot que acelera la inferencia de LLMs hasta 1.2x en GPUs B200 con FP8, manteniendo la precisión. Formato híbrido 2:4 y denso.

2026-06-10 · 2 min

RKSC: Compartición de Caché KV y Salida Temprana Confiable

RKSC acelera hasta 3x la inferencia de LLM multietapa sin reentrenamiento. Ahorra recursos con caché KV compartida y salida temprana confiable. Descubre cómo.

2026-06-10 · 2 min

APEX4: Inferencia eficiente de LLM con W4A4 puro mediante reequilibrio de cómputo intra-SM

Descubre cómo APEX4 optimiza la inferencia de LLMs con cuantización W4A4 pura, logrando hasta 2.09x de aceleración en GPUs como RTX 3090 y A40.

2026-06-09 · 2 min

Inferencia adaptativa guiada por entropía para LLMs de contexto largo

Descubre EntropyInfer: un método sin entrenamiento que acelera hasta 2.39x la inferencia de LLMs en contextos largos, adaptando dinámicamente la atención por cabeza y segmento.

2026-06-09 · 3 min

Asignación conjunta y escalable de recursos para inferencia LLM con SLO en nubes GPU

Optimiza la inferencia de LLM con nuestro marco escalable que asigna recursos GPU bajo SLO, logrando soluciones casi óptimas en segundos y reduciendo costes.

2026-06-08 · 1 min

SSSD: Decodificación Especulativa Simplemente Escalable

Descubre SSSD, un método de decodificación especulativa sin entrenamiento que acelera la inferencia de LLMs hasta 2.9x con menor latencia y alta robustez.

2026-06-04 · 2 min

LazyAttention: RAG Eficiente con Codificación Posicional Diferida

Descubre LazyAttention, la técnica que acelera la inferencia de LLMs en RAG con caching KV sin copias. Reduce el TTFT 1.37x y aumenta el throughput 1.40x.

2026-06-04 · 2 min

SparDA: Atención Dispersa Desacoplada para LLM de Contexto Largo

Descubre SparDA, una arquitectura que acelera la inferencia de LLM de contexto largo hasta 5.3x, reduciendo el cuello de botella del caché KV.

2026-06-04 · 3 min

Ekka: Diagnóstico automatizado de errores silenciosos en inferencia de LLM

Ekka diagnostica automáticamente errores silenciosos en inferencia de LLM con un 80% de precisión. Aprende cómo esta herramienta identifica fallos ocultos en tu servidor.

2026-06-04 · 1 min

NetKV: Instancias de decodificación conscientes de red para LLMs desagregados

NetKV reduce hasta un 21.2% el tiempo hasta el primer token en inferencia LLM desagregada, superando schedulers tradicionales sin cambios en hardware.

2026-06-03 · 2 min

Qift: Cuantificación W2 sin cero para inferencia de LLM rotados

Descubre Qift: un método de cuantificación sin cero para pesos de 2 bits que mejora la precisión y eficiencia en inferencia de LLM rotados. Simple y sin entrenamiento.

2026-06-03 · 1 min

OASIS: Aceleración de inferencia LLM con cuantificación dual basada en LUT

Descubre OASIS, la arquitectura LUT que acelera la inferencia de LLM un 3x con cuantificación dual, reduciendo la pérdida de precisión a solo 1.98%.

2026-06-03 · 3 min

Vegas: Decodificación Auto-Especulativa con Atención Dispersa Verificada

Descubre Vegas: acelera LLMs hasta 2.81x usando atención dispersa guiada por verificación. Sin pérdida, código abierto.

2026-06-02 · 2 min

Batching Exclusivo Basado en Umbral para Inferencia de LLM

Optimiza la inferencia de LLM con batching exclusivo por umbral: hasta 41.9% más throughput en GPUs con ancho de banda limitado. Conoce el scheduler híbrido EB+.

2026-06-02 · 2 min