Cuando la atención colapsa: poda de tokens visuales de estructura a semántica Descubre cómo el marco STS evita el colapso de atención en VLMs, mejorando la diversidad estructural y la relevancia semántica de tokens visuales. 2026-06-03 · 2 min