Brecha modal en HAR ZSL: entrenamiento contrastivo y prototipos optimizados

El reconocimiento de actividades humanas (HAR) basado en sensores inerciales (IMU) ha avanzado notablemente, pero el zero-shot learning (ZSL) sigue enfrentando un reto crítico: la brecha modal entre las representaciones obtenidas de los sensores y las descripciones semánticas de las actividades. Investigaciones recientes demuestran que esta brecha no es un problema de inferencia, sino un fenómeno ligado al entrenamiento del codificador. Al emplear redes convolucionales temporales (TCN) con un objetivo de entropía cruzada sobre prototipos generados por Sentence-BERT a partir de nombres de etiquetas, la similitud coseno media entre embeddings del sensor y los prototipos textuales apenas alcanza 0.30. Sin embargo, al sustituir esos nombres por descripciones discriminativas y detalladas de cada actividad, la alineación salta a 0.69. Este incremento se traslada de forma consistente a distintos métodos de inferencia, y cuando se combina entrenamiento contrastivo con corrección softmax invertida se logra una precisión del 73.2% y un macro F1 de 0.583 en clases no vistas, frente al 58.3% y 0.34 de la línea base con solo nombres de etiquetas. Un hallazgo secundario relevante es que las descripciones muy ricas pueden reducir la separabilidad entre prototipos debido al vocabulario biomecánico compartido, pero este efecto no anula las ventajas del alineamiento contrastivo si las descripciones conservan términos suficientemente discriminativos. Todo ello subraya la importancia de usar macro F1 como métrica principal cuando las distribuciones de clases están desbalanceadas, en lugar de la precisión global.

Desde una perspectiva práctica, estas conclusiones tienen implicaciones directas para el desarrollo de sistemas de inteligencia artificial aplicados a monitorización deportiva, salud asistida o entornos industriales. En Q2BSTUDIO, como empresa especializada en soluciones de inteligencia artificial para empresas, trabajamos en la creación de modelos de reconocimiento de actividades que integran técnicas de ZSL con entrenamiento contrastivo, optimizando la representación de datos de sensores mediante descripciones textuales enriquecidas. Nuestros servicios de desarrollo de aplicaciones a medida permiten implementar estas arquitecturas en entornos reales, desde plataformas móviles hasta sistemas embebidos que requieren baja latencia. Además, combinamos estas capacidades con servicios cloud AWS y Azure para el procesamiento escalable de flujos de datos IMU, ofreciendo una infraestructura robusta y segura. La integración de agentes IA y herramientas de inteligencia de negocio como Power BI facilita la visualización de patrones de actividad y la toma de decisiones basada en datos. Todo ello se apoya en prácticas de ciberseguridad que protegen la información sensible de los usuarios. Así, la investigación en ZSL-HAR no solo amplía el conocimiento académico, sino que impulsa soluciones empresariales concretas que mejoran la eficiencia y la calidad de vida.

Compartir

Comentarios