CoughSense: clasificación de enfermedades respiratorias en 5 clases

En el ámbito de la salud digital, el análisis automatizado de la tos ha emergido como una herramienta prometedora para el cribado respiratorio de bajo costo. Sin embargo, la mayoría de los sistemas existentes se limitan a la detección binaria de COVID-19, dejando de lado otras afecciones igualmente relevantes. Un enfoque verdaderamente práctico debe ser capaz de diferenciar múltiples patologías a partir de una sola grabación realizada con un teléfono inteligente de consumo. Es aquí donde el desarrollo de software a medida y la aplicación de inteligencia artificial se convierten en pilares fundamentales para transformar la investigación académica en soluciones reales.

Un ejemplo representativo es el sistema CoughSense, diseñado para clasificar grabaciones de tos en cinco categorías: persona sana, COVID-19, asma u otras condiciones respiratorias, bronquitis y neumonía. Para ello, los investigadores agregaron más de 18.300 registros provenientes de cuatro conjuntos de datos públicos: Coswara, CoughVID, Virufy y el West China Hospital Pediatric Cough Dataset. El modelo se apoya en el codificador Whisper de OpenAI como base preentrenada, pero introduce una innovación clave: el active-frame QKV attention pooling. Esta técnica restringe la atención a los primeros 200 tokens del codificador (de un total de 1500), evitando el problema de dilución por silencio que surge cuando una tos de tres segundos apenas ocupa 150 tokens de la ventana de 30 segundos de Whisper. De esta forma, se captura la información verdaderamente relevante sin que el modelo se pierda en tramos vacíos.

El entrenamiento de un clasificador multiclase en este dominio presenta desafíos importantes: un desbalanceo de clases de 19 a 1 y cambios de dominio entre los distintos conjuntos de datos. Los autores implementaron varias estrategias para mitigarlos: WeightedRandomSampler para balancear el muestreo, SpecAugment para aumentar la variabilidad espectral, Balanced Mixup con emparejamiento forzado de minorías, una función de pérdida auxiliar contrastiva supervisada, condicionamiento mediante FiLM y adaptación de dominio por inversión de gradiente. Además, un modelo de doble codificador fusiona Whisper con el modelo fundacional respiratorio OPERA-CT mediante atención cruzada. Estas técnicas no solo son relevantes para la investigación, sino que ilustran cómo las empresas que ofrecen servicios de inteligencia de negocio y agentes IA deben abordar problemas reales de datos desbalanceados y heterogéneos.

Los resultados obtenidos por CoughSense (con Whisper-tiny, solo 8,6 millones de parámetros) son notables: un 82,3 % de precisión balanceada en validación cruzada de cinco pliegues, con un macro-F1 de 0,817 y un AUC de 0,941. Superó en 11,1 puntos a un EfficientNet-B2 preentrenado con ImageNet y en 29,6 puntos a un ViT entrenado desde cero. Las cinco clases superaron el 74 % de sensibilidad, y cuatro de ellas superaron el 80 %. La versión con doble codificador alcanzó un 85,4 % de precisión balanceada. El active-frame pooling resultó ser el componente individual más relevante en los estudios de ablación, aportando 5,1 puntos de mejora. Esto demuestra que cualquier tarea de audio corto que utilice Whisper como base puede beneficiarse de este enfoque.

Más allá del ámbito clínico, estos avances tienen implicaciones directas para el sector empresarial. La capacidad de procesar señales acústicas breves con modelos ligeros abre la puerta a aplicaciones de diagnóstico remoto, monitorización de pacientes y asistentes virtuales de salud. Para que una solución de este tipo funcione en entornos productivos, se requiere una infraestructura robusta que garantice la privacidad y la escalabilidad. Aquí es donde entran en juego los servicios cloud aws y azure, que permiten desplegar modelos de inteligencia artificial para empresas con alta disponibilidad y costos ajustados. Asimismo, la ciberseguridad es crítica al manejar datos sensibles de pacientes; las auditorías de pentesting y las buenas prácticas de desarrollo seguro son indispensables. Por otra parte, la generación de informes y dashboards a partir de los resultados del modelo puede integrarse con Power BI y otras herramientas de servicios inteligencia de negocio, facilitando la toma de decisiones a nivel directivo.

En Q2BSTUDIO, entendemos que la clave del éxito no reside solo en la precisión de un algoritmo, sino en la capacidad de integrarlo en un ecosistema tecnológico completo. Ofrecemos ia para empresas que va desde la conceptualización hasta el despliegue en producción, utilizando técnicas de aprendizaje automático avanzadas y adaptándonos a las necesidades específicas de cada cliente. Además, desarrollamos aplicaciones a medida que incorporan modelos de lenguaje, visión artificial y procesamiento de señales, siempre con un enfoque en la usabilidad y la seguridad. Nuestro equipo combina experiencia en software a medida, servicios cloud aws y azure, y agentes IA para entregar soluciones que realmente transforman los procesos de negocio. Si su organización busca implementar un sistema de clasificación de audio, análisis predictivo o cualquier otra innovación basada en datos, estamos listos para acompañarlo.

En definitiva, el caso de CoughSense ejemplifica cómo la investigación académica en inteligencia artificial puede transferirse al mundo real cuando se cuenta con la tecnología adecuada. La combinación de modelos preentrenados, técnicas de pooling selectivo y estrategias de entrenamiento robustas permite alcanzar resultados clínicamente relevantes. Para las empresas, la lección es clara: invertir en inteligencia artificial no es una opción, sino una necesidad para seguir siendo competitivos. Y para lograrlo, contar con un socio tecnológico que ofrezca aplicaciones a medida y una plataforma cloud segura es el camino más eficiente. La tos, ese síntoma tan común, se ha convertido en una fuente de datos valiosa; saber interpretarla correctamente puede salvar vidas y optimizar recursos sanitarios.

Compartir

Comentarios