DREAM-S: Decodificación especulativa para generación multimodal
Acelera la generación multimodal con DREAM-S, un novedoso método de decodificación especulativa que alcanza 3.85x de velocidad en VLMs.
Acelera la generación multimodal con DREAM-S, un novedoso método de decodificación especulativa que alcanza 3.85x de velocidad en VLMs.
Descubre cómo resolver conflictos de optimización entre ReID por imagen y texto. Un entrenamiento desacoplado mejora representaciones compartidas.
Un estudio revela que el uso de herramientas en agentes multimodales no siempre mejora su rendimiento. Descubre los sorprendentes resultados.
¿Pueden los modelos multimodales advertir peligros en video antes de que ocurran? PaSBench-Video pone a prueba su precisión temporal. Descubre los resultados.
Moment-Video evalúa la capacidad de MLLM para captar eventos visuales que duran solo unos fotogramas. Resultados sorprendentes.
AdaCodec reduce tokens visuales en video MLLMs hasta 1/7, mejorando benchmarks y reduciendo tiempo de primera respuesta de 9.26s a 1.62s.
Descubre cómo un nuevo método de perturbación perceptual y modelado de recompensa corrige el sesgo en evaluaciones de LLMs multimodales. Más preciso y alineado con humanos.
Aprende cómo las correlaciones espurias en VLM crean un espejismo de seguridad y cómo el desaprendizaje reduce ataques y rechazos innecesarios.
Descubre el nuevo benchmark InPhyRe revela: modelos multimodales fallan en razonamiento físico inductivo, cuestionando su fiabilidad en aplicaciones críticas.
TIGER reduce alucinaciones en generación multimodal mediante enrutamiento gráfico de evidencia. Repara hechos falsos en imágenes, audio y video manteniendo la calidad.
MindZero revoluciona el razonamiento mental en IA al aprender sin anotaciones. Descubre cómo supera a métodos tradicionales en precisión y velocidad.
La IA multimodal combina satélites, texto y datos estructurados para validar riesgos climáticos, superando las limitaciones de las tablas. Una nueva era.
Entiende cómo la PID descompone la interacción entre modalidades en MLLMs, identificando sinergia y redundancia. Clave para mejorar razonamiento y grounding en IA.
Los LLMs mejoran la gestión de sistemas de transporte integrando datos heterogéneos para soporte de decisiones multimodal. ¡Descubre cómo!
Nuevo método de aprendizaje multimodal predice propiedades de materiales bicapa apilados, acelerando el descubrimiento de nuevos materiales 2D.
Predice el rendimiento en matemáticas avanzadas con análisis multimodal y alerta temprana. Intervenciones personalizadas.
Descubre GCAN, modelo de atención contrafactual para diagnóstico explicable del deterioro cognitivo usando conectomas multimodales. Preciso y transparente.
Descubre Planktonzilla-17M, el dataset más grande de imágenes de plancton. Mejora la clasificación de especies con IA y supera a modelos base como BioCLIP.
Descubre CoCoVideo-26K, un benchmark contrastivo con videos reales y generados por IA comerciales. Ideal para detectar deepfakes de alta calidad.
Descubre cómo VGID usa ruido visual y destilación para eliminar conocimiento no deseado en modelos multimodales sin perder rendimiento.