ROVER: Enrutamiento de Evidencia Visual Centrada en Objetos para Razonamiento Fundamentado Multi-Imagen
ROVER presenta un enfoque de razonamiento multi-imagen basado en evidencia visual centrada en objetos. Descubre cómo mejora la comprensión de escenas complejas.