SenseBench: Un benchmark para la percepción visual de bajo nivel y descripción en teledetección en grandes modelos de visión y lenguaje.

La percepción visual de bajo nivel en imágenes de teledetección es un reto técnico que va mucho más allá de asignar una nota numérica a la calidad de una fotografía. Los expertos necesitan identificar degradaciones físicas concretas, como artefactos atmosféricos, ruido térmico o distorsiones geométricas, y describirlas con lenguaje preciso. Ahí es donde los modelos de visión y lenguaje, conocidos como VLMs, prometen dar un salto cualitativo al generar descripciones textuales en lugar de simples escalares. Sin embargo, estos modelos han sido entrenados mayoritariamente con imágenes terrestres, lo que genera un sesgo de dominio que limita su eficacia en entornos satelitales. Benchmarks especializados como SenseBench están diseñados precisamente para cerrar esa brecha, proporcionando un corpus jerárquico con más de diez mil casos etiquetados que abarcan desde seis grandes categorías hasta veintidós tipos finos de degradación, permitiendo evaluar tanto la percepción objetiva como la capacidad de descripción diagnóstica de los VLMs.

Para las empresas que trabajan con datos geoespaciales, contar con sistemas capaces de interpretar y comunicar defectos visuales de forma automática es un habilitador crítico. La integración de inteligencia artificial para empresas permite transformar ese diagnóstico en acciones concretas: desde la corrección automática de imágenes hasta la mejora de modelos predictivos basados en teledetección. En Q2BSTUDIO desarrollamos soluciones que conectan estos avances científicos con necesidades reales de negocio. Por ejemplo, combinamos agentes IA capaces de detectar anomalías visuales con plataformas de aplicaciones a medida que integran flujos de trabajo en la nube, ya sea mediante servicios cloud AWS y Azure o a través de cuadros de mando en Power BI que visualizan la evolución de la calidad de las imágenes a lo largo del tiempo. Todo ello con un enfoque en ciberseguridad para proteger los datos críticos que manejan las organizaciones.

Este tipo de benchmark no solo revela fenómenos como la ilusión de fluidez o el efecto de inversión percepción-descripción que sufren los VLMs actuales, sino que también sienta las bases para entrenar modelos más robustos y específicos para teledetección. En nuestra experiencia, la capacidad de adaptar estas tecnologías a entornos verticales es lo que marca la diferencia entre una demo y una solución productiva. Por eso ofrecemos servicios inteligencia de negocio y automatización de procesos que permiten a las organizaciones capitalizar la información extraída de imágenes satelitales sin necesidad de contar con equipos internos de investigación. La combinación de software a medida con modelos de lenguaje entrenados para dominios concretos está redefiniendo lo que es posible en sectores como la agricultura de precisión, la monitorización ambiental o la planificación urbana.

Compartir

Comentarios