La navegación endoscópica monocular sigue siendo uno de los grandes desafíos en cirugía mínimamente invasiva. La ausencia de pistas de profundidad fiables, la textura débil de los tejidos, las deformaciones no rígidas y la gran variabilidad de apariencia entre diferentes dominios anatómicos complican tareas críticas como la estimación de pose, la predicción de profundidad y la alineación imagen-anatomía. En este contexto, los modelos de visión basados en inteligencia artificial han mostrado avances prometedores, pero sus representaciones aprendidas carecen a menudo de consistencia geométrica, lo que limita la correspondencia estable de características y la fiabilidad en tareas de navegación.

Para superar estas limitaciones, se ha propuesto un marco unificado que aprende representaciones de imagen geométricamente consistentes y robustas a cambios de dominio en endoscopia. El enfoque combina una tubería de datos sintéticos que proporciona supervisión geométrica precisa con una adaptación jerárquica de geometría y semántica. Esta última, una alternativa estructurada a los adaptadores de bajo rango (LoRA), inserta módulos de adaptación de forma selectiva a lo largo de la jerarquía del transformador y los acopla con objetivos de entrenamiento por capa para fomentar la correspondencia geométrica en características intermedias y la consistencia semántica en las más profundas. Este diseño permite que las representaciones capturen tanto la estructura espacial como el significado clínico de las imágenes.

Los experimentos realizados sobre conjuntos de datos públicos y propietarios demuestran una mejora notable en la calidad de las representaciones geométricas y semánticas, lo que se traduce en un mejor rendimiento en tareas de navegación como la estimación de pose y la profundidad monocular. Además, las representaciones aprendidas muestran una transferencia favorable de datos sintéticos a entornos clínicos reales en broncoscopia, y proporcionan una inicialización útil para adaptarse a sinusoscopia y colonoscopia con poca supervisión. El marco también escala de forma positiva con el tamaño del modelo y la cantidad de datos de entrenamiento.

Estos resultados refuerzan la adaptación guiada por geometría y jerarquía como un enfoque práctico para el aprendizaje de representaciones endoscópicas. Para que esta tecnología llegue a los quirófanos, es necesario integrarla en sistemas robustos y personalizados. En Q2BSTUDIO desarrollamos ia para empresas que pueden adaptar este tipo de modelos a flujos de trabajo específicos, aprovechando aplicaciones a medida que incorporen módulos de visión por computador, cloud computing y ciberseguridad para proteger datos médicos sensibles. Además, ofrecemos servicios cloud aws y azure para escalar el procesamiento de grandes volúmenes de imágenes, y servicios inteligencia de negocio con power bi para analizar métricas quirúrgicas y de rendimiento. La incorporación de agentes IA permite automatizar la detección de anomalías y la asistencia en tiempo real durante la endoscopia.

En definitiva, la combinación de representaciones geométricamente consistentes con una plataforma de software a medida, inteligencia artificial y servicios cloud abre la puerta a una navegación endoscópica más precisa y segura. Desde Q2BSTUDIO acompañamos a instituciones sanitarias y empresas de tecnología médica en la implementación de estas soluciones, garantizando un enfoque integral que abarca desde la investigación hasta el despliegue en producción.