Ajuste fino con listas densas de coordenadas: interferencia controlable en VLMs

El ajuste fino de modelos de lenguaje y visión (VLMs) para generar listas densas de coordenadas ha revelado un fenómeno sutil pero crítico: la interferencia controlable en la serialización y terminación de salidas estructuradas. Cuando un modelo como Gemma 4 12B se entrena con adaptadores de alta capacidad (como LoRA en q/k/v/o), la precisión en tareas de grounding visual mejora drásticamente (F1@0.3 de 0.007 a 0.448), pero aparecen patrones de repetición anómalos en las colas de las secuencias generadas. Este comportamiento, medido como tasa de duplicados (0.080) y repeticiones máximas (23), no se debe simplemente a un sobreajuste, sino a una interferencia estructural que afecta únicamente a las listas de coordenadas de bounding boxes, mientras que otros formatos (JSON de conteo, descripciones espaciales) permanecen limpios incluso con adaptadores de alto rango. La capacidad de persistencia es notable: al variar el rango de q/v de 4 a 64, la repetición máxima se mantiene entre 21 y 22, lo que sugiere un límite intrínseco en la representación interna del modelo. Sin embargo, el estudio demuestra que la señal es separable: aplicando un filtro de parada-repetición a nivel de objeto se eliminan los registros duplicados (tasa 0.000, max repetición 1) sin sacrificar el F1 (de 0.494 a 0.490) ni el F1@0.5 (de 0.381 a 0.385). Qwen3-VL-8B confirma la robustez del enfoque, alcanzando un punto final controlado (F1@0.3 0.318, sin duplicados), y COCO 2017 reproduce tanto la adquisición de precisión como la presión de repetición. Para las empresas que integran estos modelos en sus flujos de trabajo, comprender esta interferencia es clave para desplegar ia para empresas de manera fiable. En Q2BSTUDIO, como especialistas en software a medida, abordamos estos retos combinando inteligencia artificial, agentes IA y servicios cloud aws y azure para garantizar que las salidas estructuradas sean precisas y consistentes. Además, ofrecemos servicios inteligencia de negocio como power bi para visualizar métricas de rendimiento del modelo, y aplicamos ciberseguridad en la gestión de datos sensibles. La lección es clara: un ajuste fino bien controlado no solo mejora la precisión, sino que abre la puerta a aplicaciones a medida más robustas y escalables.

Compartir

Comentarios