Gaze Heads: Cómo los VLM 'miran' lo que describen
Descubre cómo los VLM usan 'gaze heads' para describir imágenes. Redirige su atención con un 83% de precisión. Control sin reentreno.
Descubre cómo los VLM usan 'gaze heads' para describir imágenes. Redirige su atención con un 83% de precisión. Control sin reentreno.