Comparativa de MLLMs en generación de código para webs interactivas
WebIGBench evalúa MLLMs en generar código de páginas web con interacciones complejas. Descubre los resultados y límites actuales. ¡Lee más!
WebIGBench evalúa MLLMs en generar código de páginas web con interacciones complejas. Descubre los resultados y límites actuales. ¡Lee más!
¿Sabías que los modelos de IA multimodales son más vulnerables a ataques con video que con imágenes? Un estudio revela cómo el video multi-clip aumenta el éxito de los jailbreaks.
Descubre cómo MLLM-Microscope analiza las representaciones internas de los MLLMs, revelando linealidad, dimensión y anisotropía para mejorar el diseño futuro.
SCALE permite a agentes web automejorar mediante exploración cognitiva, superando limitaciones en entornos dinámicos. Mejora el rendimiento de MLLMs.
Descubre PRISM, un método que selecciona datos de instrucción visual sin entrenamiento, reduciendo costes y mejorando el rendimiento de modelos multimodales.
Análisis de la dificultad de explicar frente a predecir en MLLMs visuales con ICL. Evaluación de la calidad de explicaciones conceptuales en modelos multimodales.