El desarrollo de recursos lingüísticos para lenguas con poca representación digital es un desafío creciente en el ámbito de la inteligencia artificial. La creación de un conjunto de datos etiquetado para la clasificación de lenguaje figurado en sindhi, una lengua hablada por millones de personas en el sur de Asia, representa un paso significativo hacia la inclusión tecnológica. Este tipo de iniciativas combina la recolección de texto de fuentes diversas como blogs, redes sociales y literatura, con un proceso de anotación cuidadoso realizado por hablantes nativos para garantizar la calidad. La concordancia entre anotadores, reflejada en un coeficiente de 0,81, demuestra la solidez del etiquetado. En el ámbito empresarial, contar con capacidades de procesamiento de lenguaje natural robustas permite a las compañías ofrecer ia para empresas que comprendan matices culturales y expresiones idiomáticas, un diferenciador clave en mercados globalizados. Para lograr estos modelos, se evalúan arquitecturas multilingües como mBERT, XLM-RoBERTa o XLM-RoBERTa-XL, siendo esta última la que alcanza el mejor rendimiento en la clasificación. Este tipo de experimentación es fundamental para quienes buscan desarrollar aplicaciones a medida que requieran comprensión semántica avanzada. En Q2BSTUDIO, entendemos la complejidad de implementar soluciones de software a medida basadas en inteligencia artificial, y ofrecemos servicios especializados que van desde la automatización de procesos hasta el análisis de datos con Power BI. Además, nuestra experiencia en agentes IA y en la gestión de infraestructuras críticas mediante servicios cloud aws y azure permite a las organizaciones escalar sus proyectos lingüísticos con la seguridad y flexibilidad necesarias. La integración de ciberseguridad en cada capa del sistema protege tanto los datos de entrenamiento como los modelos desplegados, algo esencial cuando se trabaja con información sensible o patrimonio cultural digital. En definitiva, la creación de benchmarks como este no solo impulsa la investigación académica, sino que también sienta las bases para que herramientas de servicios inteligencia de negocio y plataformas multilingües puedan operar con mayor precisión en contextos reales, llevando la tecnología a comunidades que hasta ahora habían quedado al margen de la revolución del lenguaje natural.