R3-CoVR: marco zero-shot de razonamiento para videos compuestos
Descubre R3-CoVR, un marco zero-shot sin entrenamiento que alcanza 91.9% R@1 en recuperación de videos compuestos mediante razonamiento multimodal y reordenamiento.
Descubre R3-CoVR, un marco zero-shot sin entrenamiento que alcanza 91.9% R@1 en recuperación de videos compuestos mediante razonamiento multimodal y reordenamiento.
Descubre por qué la percepción visual supera al razonamiento en preguntas de video. Análisis del modelo Perception First para el desafío VRR 2026.
FlatVPR corrige la curvatura de manifolds en modelos fundacionales, permitiendo reconstrucción lineal precisa con pocos anclajes. Mejora el VPR incluso con cambios estacionales extremos.