ConTrans: Representaciones local-global con texto para localización zero-shot
Descubre ConTrans: combina convolución y transformer para representaciones local-global en localización zero-shot, nuevo benchmark.
Descubre ConTrans: combina convolución y transformer para representaciones local-global en localización zero-shot, nuevo benchmark.
Explora el anclaje temporal débilmente supervisado desde una óptica de juego. Un enfoque innovador para la localización de eventos en vídeo.