Benchmark Agent: evalúa todo, en todas partes, a la vez
Descubre Benchmark Agent, un sistema autónomo que crea benchmarks de alta calidad para evaluar LLMs y MLLMs sin intervención humana. Ideal para investigación.
Descubre Benchmark Agent, un sistema autónomo que crea benchmarks de alta calidad para evaluar LLMs y MLLMs sin intervención humana. Ideal para investigación.
Descubre por qué el decodificado contrastivo no mitiga alucinaciones en MLLMs según nueva investigación. Las mejoras en POPE son engañosas. ¡Entra para más!
Descubre LongSpace, un framework de memoria espacial para videos largos que mejora la comprensión de rutas y objetos. Ideal para IA en robótica y conducción.
Descubre GeoVR, un nuevo enfoque que enseña a los modelos multimodales a comprender el espacio 3D usando solo videos 2D. Resultados estatales del arte en razonamiento espacial.
Descubre WiserUI-Bench, el benchmark que evalúa si las MLLMs realmente comprenden cómo el diseño UI/UX influye en el comportamiento del usuario a través de pruebas A/B reales.
BiNSGPS resuelve problemas de geometría con interacción bidireccional entre MLLM y solucionadores, eliminando errores y alucinaciones.
Descubre ToxiMol, el primer benchmark que evalúa la capacidad de los MLLM para reparar moléculas tóxicas. ¿Podrá la IA mejorar el diseño de fármacos?
Descubre cómo los MLLMs enfrentan el desafío de reparar moléculas tóxicas. ToxiMol y ToxiEval muestran resultados prometedores en desintoxicación estructural.
Marco híbrido de moderación en livestreams: combina clasificación y similitud con MLLM para detectar violaciones y casos, reduciendo un 6-8% vistas no deseadas.
CP-Agent: IA multimodal que interpreta morfología celular bajo fármacos, acelerando descubrimiento con reportes contextuales.
Descubre Social Caption: evaluando la comprensión social de modelos multimodales. Tres dimensiones clave: inferencia, análisis holístico y dirigido.
Potencia MLLMs con MUSE, un arnés agéntico unificado que mejora tareas complejas sin reentrenar, usando verificación y reparación guiada.
WebRISE: nuevo benchmark evalúa estados y transiciones en artefactos web generados por MLLM. La calidad visual no es suficiente. Descubre más.
Descubre v-HUB, el nuevo benchmark para evaluar cómo los modelos multimodales entienden el humor en videos. ¿Puede la IA captar la comedia visual y sonora?
Descubre cómo DenseMLLM permite a los LLM multimodales estándar realizar predicciones densas sin decodificadores adicionales. Resultados competitivos en segmentación y profundidad.
ES-Merging fusiona modelos multimodales biológicos usando señales de embedding, mejorando razonamiento cruzado y preservación.
Moment-Video evalúa la capacidad de MLLM para captar eventos visuales que duran solo unos fotogramas. Resultados sorprendentes.
Entiende cómo la PID descompone la interacción entre modalidades en MLLMs, identificando sinergia y redundancia. Clave para mejorar razonamiento y grounding en IA.
Descubre cómo CardioLens revela la brecha entre el rendimiento en benchmarks y la realidad clínica de los MLLMs en resonancia cardíaca multi-secuencia
¿Sabías que los modelos multimodales aciertan la regla pero fallan en la respuesta? Descubre StemBind, un benchmark que localiza el verdadero cuello de botella en el razonamiento visual abstracto.