#mllm

Benchmark Agent: evalúa todo, en todas partes, a la vez

Descubre Benchmark Agent, un sistema autónomo que crea benchmarks de alta calidad para evaluar LLMs y MLLMs sin intervención humana. Ideal para investigación.

2026-06-06 · 2 min

El mito del decodificado contrastivo contra alucinaciones en MLLMs

Descubre por qué el decodificado contrastivo no mitiga alucinaciones en MLLMs según nueva investigación. Las mejoras en POPE son engañosas. ¡Entra para más!

2026-06-06 · 2 min

LongSpace: Memoria espacial de largo plazo – percepción y recuerdo en video

Descubre LongSpace, un framework de memoria espacial para videos largos que mejora la comprensión de rutas y objetos. Ideal para IA en robótica y conducción.

2026-06-06 · 2 min

GeoVR: Aprendizaje de representaciones geométricas para MLLM espaciales

Descubre GeoVR, un nuevo enfoque que enseña a los modelos multimodales a comprender el espacio 3D usando solo videos 2D. Resultados estatales del arte en razonamiento espacial.

2026-06-06 · 1 min

¿Las MLLMs entienden cómo el diseño UI guía al usuario?

Descubre WiserUI-Bench, el benchmark que evalúa si las MLLMs realmente comprenden cómo el diseño UI/UX influye en el comportamiento del usuario a través de pruebas A/B reales.

2026-06-05 · 1 min

BiNSGPS: Problemas de geometría con interacción neuro-simbólica bidireccional

BiNSGPS resuelve problemas de geometría con interacción bidireccional entre MLLM y solucionadores, eliminando errores y alucinaciones.

2026-06-04 · 2 min

Rompiendo moléculas malas: ¿MLLM listos para desintoxicar?

Descubre ToxiMol, el primer benchmark que evalúa la capacidad de los MLLM para reparar moléculas tóxicas. ¿Podrá la IA mejorar el diseño de fármacos?

2026-06-04 · 1 min

Moléculas tóxicas: ¿Pueden los MLLMs desintoxicarlas?

Descubre cómo los MLLMs enfrentan el desafío de reparar moléculas tóxicas. ToxiMol y ToxiEval muestran resultados prometedores en desintoxicación estructural.

2026-06-04 · 2 min

Moderación dinámica en livestreams: clasificación y similitud con MLLM

Marco híbrido de moderación en livestreams: combina clasificación y similitud con MLLM para detectar violaciones y casos, reduciendo un 6-8% vistas no deseadas.

2026-06-04 · 2 min

CP-Agent: Razonamiento multimodal contextual para fenotipado celular

CP-Agent: IA multimodal que interpreta morfología celular bajo fármacos, acelerando descubrimiento con reportes contextuales.

2026-06-03 · 3 min

Social Caption: Evaluación de la comprensión social en modelos multimodales

Descubre Social Caption: evaluando la comprensión social de modelos multimodales. Tres dimensiones clave: inferencia, análisis holístico y dirigido.

2026-06-03 · 2 min

MUSE: Un arnés agéntico unificado para MLLMs

Potencia MLLMs con MUSE, un arnés agéntico unificado que mejora tareas complejas sin reentrenar, usando verificación y reparación guiada.

2026-06-03 · 3 min

WebRISE: Evaluación de Estados por Requisitos en Artefactos Web MLLM

WebRISE: nuevo benchmark evalúa estados y transiciones en artefactos web generados por MLLM. La calidad visual no es suficiente. Descubre más.

2026-06-03 · 2 min

v-HUB: benchmark de humor en video con visión y sonido

Descubre v-HUB, el nuevo benchmark para evaluar cómo los modelos multimodales entienden el humor en videos. ¿Puede la IA captar la comedia visual y sonora?

2026-06-02 · 2 min

DenseMLLM: LLM multimodal estándar para predicción densa

Descubre cómo DenseMLLM permite a los LLM multimodales estándar realizar predicciones densas sin decodificadores adicionales. Resultados competitivos en segmentación y profundidad.

2026-06-02 · 2 min

ES-Merging: Fusión de MLLM biológicos mediante señales de embedding

ES-Merging fusiona modelos multimodales biológicos usando señales de embedding, mejorando razonamiento cruzado y preservación.

2026-06-02 · 2 min

Moment-Video: Fidelidad temporal de MLLM en eventos visuales momentáneos

Moment-Video evalúa la capacidad de MLLM para captar eventos visuales que duran solo unos fotogramas. Resultados sorprendentes.

2026-06-02 · 2 min

Interacción de modalidades en MLLMs: descomposición parcial

Entiende cómo la PID descompone la interacción entre modalidades en MLLMs, identificando sinergia y redundancia. Clave para mejorar razonamiento y grounding en IA.

2026-06-02 · 2 min

CardioLens: Brecha clínica de los MLLMs en resonancia cardíaca

Descubre cómo CardioLens revela la brecha entre el rendimiento en benchmarks y la realidad clínica de los MLLMs en resonancia cardíaca multi-secuencia

2026-06-02 · 2 min

StemBind: Cuando la IA sabe la regla pero elige mal

¿Sabías que los modelos multimodales aciertan la regla pero fallan en la respuesta? Descubre StemBind, un benchmark que localiza el verdadero cuello de botella en el razonamiento visual abstracto.

2026-06-02 · 2 min