Decodificando la intención de cruce peatonal con modelos de visión y lenguaje
Investigación que utiliza modelos de lenguaje y visión para predecir intención de cruce peatonal desde vídeos egocéntricos, con un 14.5% más de precisión.
Investigación que utiliza modelos de lenguaje y visión para predecir intención de cruce peatonal desde vídeos egocéntricos, con un 14.5% más de precisión.
Los VLMs permiten reidentificar objetos en conducción autónoma mediante descripciones semánticas zero-shot, con rendimiento comparable a CNN y mayor interpretabilidad.
Descubre cómo el marco STS evita el colapso de atención en VLMs, mejorando la diversidad estructural y la relevancia semántica de tokens visuales.