#multimodales

Agnes AI: primer laboratorio de IA de Singapur en ranking global

Agnes AI, primer laboratorio de Singapur en el top 10 global de IA. Acceso gratuito a modelos de texto, imagen y video.

2026-06-01 · 3 min

Monte Carlo secuencial reforzado para muestreo amortizado

Descubre cómo el Monte Carlo secuencial reforzado mejora el muestreo amortizado de distribuciones complejas. Entrenamiento off-policy y temperado adaptativo para mayor precisión.

2026-06-01 · 2 min

PInVerify: benchmark offline para verificación activa de instancias

PInVerify es un nuevo benchmark offline que evalúa agentes encarnados en la verificación activa de objetos con atributos finos. Descubre cómo funciona y sus resultados con MLLMs.

2026-06-01 · 2 min

ConSensus: colaboración multiagente para sensores multimodales

ConSensus mejora la precisión de sensores multimodales un 7.1% usando fusión híbrida multiagente, robusta ante ruido y datos faltantes. ¡Entérate!

2026-06-01 · 2 min

Selección de región de confianza basada en BAI para optimización bayesiana

Descubre cómo la identificación del mejor brazo (BAI) mejora la optimización bayesiana en funciones multimodales, acelerando la convergencia al óptimo global.

2026-06-01 · 2 min

Detección en cualquier escena: marco agéntico con razonamiento experiencial

Descubre DetAS-X, el marco agéntico que adapta la detección de objetos a cualquier escena, mejorando el F1 hasta un 37%.

2026-06-01 · 2 min

MechVQA: Evaluando LLMs multimodales en dibujos mecánicos

MechVQA: el primer dataset completo para evaluar LLMs multimodales en dibujos mecánicos. Supera a modelos cerrados con un 7.57% de precisión extra.

2026-06-01 · 2 min

ImmersiveTTS: Texto a Voz Consciente del Entorno con Difusión Multimodal

ImmersiveTTS genera voz natural integrada en entornos reales, superando en naturalidad e inteligibilidad a otros modelos. Conoce cómo logra la alineación semántica con difusión multimodal.

2026-06-01 · 2 min

ERGeoBench: Benchmark de geolocalización encarnada en MLLMs

ERGeoBench evalúa la geolocalización encarnada de modelos multimodales usando razonamiento espacial y percepción visual. Descubre sus limitaciones.

2026-06-01 · 1 min

FBHM: Benchmark funcional y guiado de VLM para detectar memes ofensivos

El nuevo benchmark FBHM revela que los VLM fallan en memes ofensivos. Descubre cómo los vectores de guía aprendibles mejoran la detección en un 30%.

2026-06-01 · 2 min

VLA-Trace: Diagnosticando Modelos de Visión-Lenguaje-Acción a través del Rastreo de Representaciones y Comportamientos

2026-05-30 · 3 min

Pequeño pero Confiable: Razonamiento eficiente de visión-lenguaje para detección de anomalías en series temporales

Aprende cómo un modelo pequeño pero confiable detecta anomalías en series temporales usando visión y lenguaje. Eficiencia y precisión.

2026-05-30 · 2 min

Pocket-Dentist: Comprensión de imágenes dentales en el dispositivo mediante modelos de lenguaje grandes multimodales eficientes

2026-05-29 · 2 min

COMET: Disección del Espacio Conceptual de la Brecha de Modalidad en Embeddings Contrastivos Multimodales de Audio-Texto

2026-05-29 · 2 min

Hacia una edición de conocimiento localizada y desenredada para modelos de lenguaje grandes multimodales

2026-05-29 · 2 min

Mitigación de la alucinación en modelos de visión y lenguaje mediante direccionamiento adaptativo de forma cerrada regulado por barreras

Descubre cómo el direccionamiento adaptativo reduce alucinaciones en modelos de visión y lenguaje. Técnica innovadora para mejorar precisión y fiabilidad.

2026-05-29 · 1 min