#gaze heads

Gaze Heads: Cómo los VLM 'miran' lo que describen

Descubre cómo los VLM usan 'gaze heads' para describir imágenes. Redirige su atención con un 83% de precisión. Control sin reentreno.