#inferencia

Decodificación especulativa para múltiples idiomas

Descubre cómo mejorar la decodificación especulativa en idiomas no ingleses. Comparamos fine-tuning y modelos n-grama para acelerar la generación de texto multilingüe.

2026-06-01 · 2 min

CacheProbe: Auditoría de aislamiento de caché de prompts en APIs Gateway

¿Está realmente aislada la caché de prompts en APIs Gateway? CacheProbe audita OpenRouter y revela riesgos de seguridad por caché compartido.

2026-06-01 · 2 min

Inferencia Bayesiana con MLPs Profundos No Lineales

Descubre cómo la inferencia bayesiana en MLPs profundos no lineales se simplifica a un método kernel y cómo la profundidad mejora la evidencia del modelo. Una nueva perspectiva teórica.

2026-06-01 · 3 min

Light Interaction: Aceleración sin entrenamiento para modelos de video interactivos

Light Interaction acelera hasta 2.59x la inferencia de modelos de video interactivos sin reentrenamiento, manteniendo calidad visual. Ideal para simulación y navegación virtual.

2026-06-01 · 2 min

OBCache: poda óptima de caché KV para LLMs de contexto largo

Descubre OBCache, la técnica de poda de caché KV que optimiza la memoria en LLMs para inferencia en contextos largos sin sacrificar precisión.

2026-06-01 · 2 min

Aprendiendo Subespacios Acoplados para Datos de Picos Multicondición

Aprende cómo CS-GPFA mejora el análisis de datos de picos neuronales mediante subespacios acoplados y selección adaptativa de condiciones.

2026-06-01 · 2 min

Evita el vaivén: Verificación con preservación de contexto

Descubre COVER: verificación eficiente que elimina oscilaciones y acelera la inferencia en decodificación difusiva revocable.

2026-06-01 · 2 min

Regulación ambiental de la IA: del costo del razonamiento a la IA verde

Descubre cómo la regulación ambiental de la IA busca equilibrar el avance tecnológico con la sostenibilidad. Analizamos costos de razonamiento, transparencia y derechos del usuario.

2026-06-01 · 3 min

Sesgo Neuronal Implícito Factorizado en Superresolución con FlashAttention

RIB permite FlashAttention en SR Transformers, logrando ventanas de 96x96, 2.1x menos entrenamiento y 2.9x menos inferencia. Alcanza 35.63 dB PSNR en Urban100.

2026-06-01 · 2 min

Caracterización empírica de transformaciones de probabilidad en LLMs

Descubre cómo las transformaciones de probabilidad inducidas en tiempo de inferencia en LLMs siguen patrones log-ratio reproducibles. Un análisis empírico de 4,975 problemas.

2026-06-01 · 2 min

Muestreo de orden cero no log-cóncavo con reducción de varianza

Método de muestreo de orden cero con reducción de varianza para distribuciones no log-cóncavas. Aplicado a problemas inversos con garantías de convergencia.

2026-06-01 · 2 min

CellBRIDGE: Alineación consciente de interacciones para trayectorias celulares

CellBRIDGE integra comunicación célula-célula en el transporte óptimo para mejorar trayectorias celulares en scRNA-seq. Ideal para perturbaciones in silico.

2026-06-01 · 3 min

OrcaRouter: Enrutador LLM orientado a producción con aprendizaje híbrido offline-online

Descubre OrcaRouter: el enrutador híbrido offline-online que alcanza 75.54% de precisión a solo $1 por mil consultas.

2026-06-01 · 1 min

Chatterbox-Flash: difusión de bloques calibrada para TTS streaming

Chatterbox-Flash revoluciona la síntesis de voz zero-shot con difusión de bloques calibrada, permitiendo streaming de alta fidelidad y baja latencia.

2026-06-01 · 2 min

BOKBO: Abstención Calibrada para Políticas de Visión-Lenguaje-Acción

Descubre BOKBO, un método de abstención calibrada que garantiza seguridad en políticas VLA. Reduce violaciones y mejora el éxito de tareas robóticas.

2026-06-01 · 2 min

Certificados automáticos de convergencia en MCMC de transporte

CerT-MCMC ofrece certificados automáticos de convergencia para MCMC con flujos normalizantes, con cotas no vacías incluso en altas dimensiones. ¡Más fiabilidad!

2026-06-01 · 3 min

Alineación federada de preferencias con prior Gumbel-Softmax

Descubre FedVPA-GP: un nuevo marco de aprendizaje federado que personaliza modelos de lenguaje alineando preferencias de usuarios sin exponer datos, superando e

2026-06-01 · 2 min

Adaptador Variacional para Representación de Similitud Multimodal

Descubre cómo el Adaptador Variacional mejora la similitud multimodal resolviendo falsos negativos y potenciando la generalización en modelos de visión-lenguaje

2026-06-01 · 2 min

Corregir división en árboles en línea con inferencia válida

La inferencia anytime-valid corrige la selección de divisiones en árboles en línea, mejorando precisión en flujos no estacionarios.

2026-06-01 · 3 min

Predicción práctica de canal entre bandas para AI-RAN con deep unfolding

Descubre GUIDE, deep unfolding guiado por física: 2.75x más ganancia de beamforming que IA 1610x más rápido que modelos basados en física, sin reentrenamiento.

2026-06-01 · 2 min