#grandes

dLLM-Cache: Caché Adaptativa para Modelos de Lenguaje con Difusión

dLLM-Cache acelera hasta 9x modelos de difusión con caché adaptativa, sin entrenamiento y con latencia cercana a modelos autoregresivos.

2026-06-03 · 2 min

ReaLM: Puente de Cuantización Residual entre Embeddings de KG y LLMs

Descubre ReaLM, un innovador marco que une embeddings de KG y LLMs mediante cuantización residual para mejorar la completación de grafos. ¡Rendimiento líder!

2026-06-03 · 2 min

Cuando los tokens de grafo se hunden: análisis mecanicista

Los tokens de grafo tienen alta activación pero baja utilidad semántica. Este análisis mecanicista revela la desconexión en modelos de lenguaje de grafos.

2026-06-03 · 3 min

Ajuste de instrucción visual alinea modalidades por abstracción

Descubre cómo el ajuste visual alinea imágenes y texto en modelos de lenguaje, optimizando el rendimiento multimodal sin aumentar el tiempo de entrenamiento.

2026-06-03 · 2 min

Adversarial ML para LLMs: ¿sin avance real?

El Adversarial ML para LLMs no progresa: problemas vagos, complejos y difíciles de medir. Conoce las razones y el riesgo de una década perdida.

2026-06-03 · 1 min

Predicción rápida y expresiva de múltiples bytes con circuitos probabilísticos

Descubre cómo MTPC acelera LLMs con circuitos probabilísticos, logrando rapidez y expresividad sin pérdida de calidad.

2026-06-03 · 2 min

ParaBlock: Aprendizaje Federado con Bloques Coordinados en Paralelo

Descubre ParaBlock: una técnica innovadora que acelera el aprendizaje federado de grandes modelos de lenguaje al paralelizar comunicación y computación, manteniendo el rendimiento.

2026-06-03 · 2 min

QUIVER: Vistas Cuánticas para Representaciones en Grandes Modelos ML

QUIVER incorpora vistas cuántico-informadas para mejorar representaciones en grandes modelos de ML, ofreciendo mejoras medibles en QM9 y JetClass.

2026-06-03 · 2 min

Filtrar, luego repesar: Nueva granularidad en destilación on-policy

FiRe-OPD mejora la destilación on-policy con filtrado de trayectorias y repesado suave de tokens. Obtén +6.25 en AIME 2024 y +18.81 en Miner ¡Optimiza tus LLMs!

2026-06-03 · 1 min

Modelo de Bytes Grandes: Enseñanza a LLMs de Código Compilado

Descubre el primer LLM nativo en bytes que analiza malware directamente desde código compilado, con hasta 98% de precisión en clasificación de arquitecturas.

2026-06-03 · 3 min

Optimización eficiente de hiperparámetros para RL en LLMs

Descubre cómo JF-HPO optimiza hiperparámetros en RL para LLMs, logrando hasta 14.9x más eficiencia y mejoras de rendimiento del 5.8% al 111.6%.

2026-06-03 · 1 min

¿App personalizada para reemplazar hojas de cálculo? Startups y grandes empresas

App personalizada reemplaza hojas de cálculo, centraliza datos y se adapta a startups y grandes empresas. ¡Optimiza tu flujo de trabajo!

2026-06-03 · 3 min

UniScale: Optimización Unificada de Inferencia Adaptativa

UniScale unifica ruteo de modelos y escalado en prueba para optimizar calidad-coste en LLMs. Aprende cómo se adapta dinámicamente a cada solicitud.

2026-06-03 · 2 min

Float8@2bits: compresión de modelos sin datos vía codificación de entropía

EntQuant comprime modelos de 70B parámetros en solo 10 minutos sin datos de calibración, alcanzando SOTA en compresión extrema a 2 bits con codificación de entropía.

2026-06-03 · 1 min

SALAAD: Adaptación dispersa y de bajo rango con ADMM para inferencia de LLM

Descubre cómo SALAAD reduce el consumo de memoria en modelos de lenguaje grandes usando estructuras dispersas y de bajo rango, permitiendo un despliegue flexible sin reentrenamiento.

2026-06-03 · 3 min

Adaptadores Kronecker: la importancia del diseño de componentes

Optimiza el ajuste fino de modelos grandes con adaptadores Kronecker. Conoce CDKA, una nueva técnica que mejora la capacidad y eficiencia mediante el diseño estratégico de componentes.

2026-06-03 · 2 min

FlexRank: Descomposición Anidada de Bajo Rango para Despliegue Adaptativo

FlexRank extrae submodelos de capacidad variable de modelos sin reentrenar. Optimiza costos y rendimiento para despliegue adaptativo a todo presupuesto.

2026-06-03 · 1 min

L2G-Net: Redes de grafos espectrales local-global con factorización Cauchy

Descubre cómo L2G-Net revoluciona las GNN espectrales con factorizaciones de Cauchy, escalando a grafos grandes con pocos parámetros.

2026-06-03 · 2 min

IAPO: Optimización de Políticas Informada para Razonamiento Eficiente en Tokens

Descubre IAPO: asigna ventajas a cada token según información mutua. Reduce razonamiento hasta 36% sin perder precisión. Optimiza tus modelos de lenguaje.

2026-06-03 · 2 min

El problema del auto-bloqueo de información en RL para agentes LLM

Descubre cómo el auto-bloqueo de información afecta el razonamiento activo de agentes LLM y cómo el método AREW lo mitiga, logrando mejoras de hasta 60 puntos.

2026-06-03 · 1 min