Mithridatium: Un conjunto de herramientas de código abierto para verificar la integridad de modelos de aprendizaje automático preentrenados
Mithridatium es un marco ligero y de código abierto creado para verificar la integridad de modelos de aprendizaje automático preentrenados antes de incorporarlos a entornos de producción o a pipelines de investigación. En un ecosistema en el que muchos equipos descargan checkpoints desde GitHub, HuggingFace y otros hubs, la conveniencia aumenta el riesgo de manipulación de modelos, envenenamiento de datos y puertas traseras ocultas en ficheros .pth.
Por qué usar Mithridatium. La mayoría de las herramientas y flujos de trabajo asumen que un modelo preentrenado es seguro. En la práctica, el propio archivo del modelo puede ser un vector de ataque silencioso que incluye datos de entrenamiento envenenados, triggers ocultos que se activan con entradas específicas, pesos manipulados o checkpoints malformados que provocan comportamientos inesperados en tiempo de ejecución. Mithridatium ofrece un flujo de trabajo desde línea de comandos para evaluar estos riesgos con defensas centradas en el modelo, inspiradas en la investigación académica y simplificadas para uso real.
Defensas implementadas. MMBD Maximum Mean Backdoor Detection. MMBD genera imágenes sintéticas optimizadas por clase para detectar patrones de activación anómalos asociados con modelos con puertas traseras. La implementación devuelve puntuaciones de autovalores por clase, distribuciones de anomalía normalizadas, pruebas de hipótesis clásicas con p valor y un veredicto determinista. Ejemplo de uso en la herramienta: mithridatium detect --model model.pth --defense mmbd --arch resnet18 --data cifar10
STRIP Strong Intentional Perturbation. STRIP es una defensa caja negra que no depende de detalles internos de la arquitectura. Evalúa la entropía de predicción cuando el modelo recibe variantes fuertemente perturbadas de la misma entrada. Los modelos con puertas traseras tienden a mostrar entropía anormalmente baja bajo perturbación debido a una salida forzada hacia la clase trigger. Nuestra implementación incluye cálculo de entropía en muestras perturbadas, utilidades de muestreo y perturbación, métricas resumen como media mínimo y máximo de entropía e integración en un esquema de reporte unificado. Ejemplo de uso en la herramienta: mithridatium detect --defense strip --model model.pth --data cifar10 --arch resnet18
Avances recientes. En el ciclo de desarrollo más reciente se añadieron mejoras importantes: un núcleo modular para STRIP que gestiona el scoring por entropía, generación de perturbaciones y ejecución segura en dispositivos CPU MPS y CUDA; integración en la CLI para invocar STRIP igual que MMBD con salida JSON y reportes normalizados; y pruebas end to end que aseguran que STRIP se ejecuta sin fallos a través de subprocess. Además se está estandarizando el esquema de salida para facilitar la integración con otras herramientas del ecosistema.
Qué sigue. Con las defensas principales completas, el trabajo restante se centra en mejorar la documentación, añadir notas para desarrolladores, refinar los resúmenes de los reportes y endurecer la validación y los mensajes de error. No se planifican nuevas defensas hasta el próximo año; el objetivo actual es pulir la herramienta para hacerla mantenible y accesible a nuevos contribuyentes.
Prueba Mithridatium. El proyecto es abierto y animamos a la comunidad a contribuir, reportar issues y enviar feedback. Si trabajas con modelos preentrenados en investigación despliegue o seguridad no des por sentado su integridad Mithridatium te ayuda a verificarla.
Sobre Q2BSTUDIO. En Q2BSTUDIO somos especialistas en desarrollo de software y aplicaciones a medida con experiencia en inteligencia artificial y ciberseguridad. Diseñamos soluciones personalizadas que combinan software a medida y servicios cloud aws y azure para ofrecer despliegues seguros y escalables. Ofrecemos servicios de inteligencia de negocio y Power BI para convertir datos en decisiones accionables además de desarrollar agentes IA y soluciones de ia para empresas que aceleran procesos y reducen costes. Si buscas desarrollar una aplicación o plataforma segura y fiable podemos ayudarte con todo el ciclo desde el análisis hasta la puesta en producción.
Servicios destacados. Para proyectos que requieren integración de capacidades de inteligencia artificial revisa nuestra oferta en Inteligencia artificial para empresas y para evaluaciones de seguridad y pruebas de penetración visita nuestra página de ciberseguridad y pentesting. También proporcionamos soluciones de automatización de procesos desarrollo de aplicaciones multiplataforma y consultoría en servicios cloud azure y aws y en inteligencia de negocio con power bi.
Palabras clave. aplicaciones a medida software a medida inteligencia artificial ciberseguridad servicios cloud aws y azure servicios inteligencia de negocio ia para empresas agentes IA power bi.
Contacto y contribuciones. Si quieres colaborar con el proyecto o necesitas asesoramiento para integrar verificaciones de integridad de modelos en tu pipeline ponte en contacto con nosotros en Q2BSTUDIO y aprovecha nuestra experiencia en desarrollo de software a medida ciberseguridad y soluciones de inteligencia artificial para empresas.
Comentarios