Gaze Heads: Cómo los VLM 'miran' lo que describen Descubre cómo los VLM usan 'gaze heads' para describir imágenes. Redirige su atención con un 83% de precisión. Control sin reentreno. 2026-06-15 · 2 min