El último píxel visible: sondeando percepción fina en VLMs
Nuevo benchmark FineSightBench revela que la percepción fina en VLMs satura a 12px y el razonamiento visual es limitado.
Nuevo benchmark FineSightBench revela que la percepción fina en VLMs satura a 12px y el razonamiento visual es limitado.
¿Qué tan pequeño puede percibir un VLM? FineSightBench revela que la percepción se satura a 12px, pero el razonamiento sigue limitado.