GazeVLM: Visión activa mediante control de atención interna para el razonamiento multimodal
GazeVLM: modelo de visión activa con atención interna que revoluciona el razonamiento multimodal, mejorando la interacción entre lenguaje y percepción visual.