Afinar un VLM para app de puntuación de moda offline

La moda es uno de esos dominios donde la subjetividad parece reinar sin contestación. Lo que resulta elegante en Tokio puede ser considerado informal en Milán, y lo que un influencer defiende como canon estético otro lo tacha de predecible. Sin embargo, detrás de esa aparente arbitrariedad existe un hecho recurrente: dentro de cada escuela de estilo, las reglas pueden formalizarse en sistemas cerrados de evaluación. Este principio es el que ha permitido abordar técnicamente la pregunta de si un modelo de inteligencia artificial puede puntuar conjuntos de vestimenta de forma consistente, incluso funcionando completamente offline en un iPhone.

La clave no está en entrenar un modelo gigante que lo sepa todo, sino en destilar conocimiento desde un modelo profesor (por ejemplo, un VLM con 235 mil millones de parámetros) hacia un modelo alumno mucho más pequeño, de apenas 2 mil millones de parámetros. Este proceso, conocido como destilación de conocimiento, permite que un modelo ligero aprenda a replicar el criterio de evaluación de un sistema mucho mayor, siempre que ese criterio esté bien definido dentro de un sistema cerrado. En lugar de pedirle a la inteligencia artificial que capte la esencia filosófica del buen vestir, se le proporciona un documento teórico con ejes de puntuación —como la proporción entre formal e informal— y se le pide que evalúe imágenes siguiendo esas reglas. El modelo grande puede procesar ese documento completo; el pequeño, tras ser entrenado con las salidas del grande, internaliza esas reglas sin necesidad de leer el texto original.

Este enfoque es especialmente relevante para empresas que necesitan aplicaciones a medida capaces de ejecutar inferencias en el dispositivo del usuario sin depender de conexión a internet. En Q2BSTUDIO, desarrollamos soluciones de inteligencia artificial para empresas que aprovechan modelos compactos y eficientes, permitiendo integrar capacidades de visión y lenguaje en entornos donde la privacidad y la latencia son críticas. Por ejemplo, un sistema de puntuación de moda como el descrito puede incrustarse en una app de venta minorista para ofrecer recomendaciones de estilo personalizadas sin enviar imágenes a la nube. Esto no solo mejora la experiencia del usuario, sino que también refuerza la ciberseguridad al mantener los datos sensibles en el propio dispositivo.

La arquitectura técnica detrás de este tipo de proyectos combina varias tecnologías. Por un lado, se emplean modelos base como Qwen3-VL, que se afinan mediante LoRA con un conjunto de datos relativamente pequeño —en torno a 800 imágenes—. Luego, el modelo se convierte a CoreML para su ejecución eficiente en hardware Apple, logrando velocidades de inferencia de unos 24 tokens por segundo en un iPhone 17 Pro. Todo el pipeline, desde la recolección de imágenes etiquetadas por el modelo profesor hasta la conversión final, puede completarse en aproximadamente dos horas y media. Esta agilidad es posible gracias a que el mapeo entre imagen y puntuación tiene baja entropía: al ser un sistema cerrado, las reglas son consistentes y el modelo alumno las reconstruye con pocos ejemplos.

Más allá de la moda, esta metodología se puede aplicar a cualquier ámbito donde exista un criterio evaluable dentro de un sistema cerrado: la corrección de posturas en deportes, la valoración de maquillaje, la interpretación de tiradas de cartas del tarot o incluso la verificación de formatos en documentos normalizados. En todos estos casos, un modelo pequeño y especializado supera en velocidad, coste y privacidad a cualquier API generalista. Las empresas que necesitan aplicaciones a medida con inteligencia artificial encuentran en esta arquitectura una vía para desplegar capacidades de juicio experto sin depender de conexiones externas. Además, la infraestructura que soporta estos desarrollos puede beneficiarse de ia para empresas integrada con servicios cloud aws y azure, o combinada con soluciones de inteligencia de negocio como power bi para visualizar las puntuaciones y tendencias obtenidas.

La destilación de conocimiento aplicada a sistemas cerrados abre la puerta a agentes IA especializados que actúan como evaluadores dedicados, entrenados en un único estándar. Frente al modelo generalista que sabe un poco de todo, estos agentes se convierten en expertos que han interiorizado un juicio hasta el punto de poder emitirlo sin titubeos, incluso en un teléfono sin conexión. El futuro de la inteligencia artificial no está solo en modelos cada vez más grandes, sino también en saber cuándo y cómo empequeñecerlos para que encajen en el bolsillo del usuario, resolviendo problemas concretos con precisión casi humana.

Compartir

Comentarios