#cvpr 2026

R3-CoVR: marco zero-shot de razonamiento para videos compuestos

Descubre R3-CoVR, un marco zero-shot sin entrenamiento que alcanza 91.9% R@1 en recuperación de videos compuestos mediante razonamiento multimodal y reordenamiento.

2026-06-02 · 2 min

Percepción primero: modelo nativo de video para QA implícito

Descubre por qué la percepción visual supera al razonamiento en preguntas de video. Análisis del modelo Perception First para el desafío VRR 2026.

2026-06-02 · 2 min