#modelos de lenguaje y visión

Decodificando la intención de cruce peatonal con modelos de visión y lenguaje

Investigación que utiliza modelos de lenguaje y visión para predecir intención de cruce peatonal desde vídeos egocéntricos, con un 14.5% más de precisión.

2026-06-16 · 2 min

Reidentificación semántica zero-shot para conducción autónoma con VLM

Los VLMs permiten reidentificar objetos en conducción autónoma mediante descripciones semánticas zero-shot, con rendimiento comparable a CNN y mayor interpretabilidad.

2026-06-09 · 2 min

Cuando la atención colapsa: poda de tokens visuales de estructura a semántica

Descubre cómo el marco STS evita el colapso de atención en VLMs, mejorando la diversidad estructural y la relevancia semántica de tokens visuales.

2026-06-03 · 2 min