Nuevo dataset de logs multiorigen etiquetados con ATT&CK y evaluación de SLMs

La detección de ciberataques modernos exige correlacionar eventos que se producen en múltiples capas: sistema operativo, red y navegador. Hasta hace poco, los conjuntos de datos públicos disponibles para entrenar modelos de inteligencia artificial se centraban en una sola fuente, lo que limitaba su capacidad para identificar patrones complejos. Un reciente trabajo de investigación ha dado un paso significativo al construir un dataset que integra logs de sistema, red y navegador, etiquetando cada entrada maliciosa con las técnicas del marco MITRE ATT&CK. Este avance es crucial para el desarrollo de soluciones de ciberseguridad más precisas, basadas en IA para empresas, ya que permite que los algoritmos aprendan a reconocer comportamientos maliciosos de forma contextual.

El dataset incluye más de 800 sesiones benignas y 70 sesiones de ataque, con un total de 2,3 millones de eventos, cubriendo 12 tácticas y 53 técnicas. Lo más relevante es que los ataques fueron generados con herramientas reales, como RAT, túneles C2 y exfiltración a la nube, lo que otorga un alto realismo. Sobre esta base, se evaluaron tres modelos de lenguaje pequeños (SLMs) —Qwen2.5-1.5B, Llama-3.2-3B y Phi-4-Mini— utilizando fine-tuning con LoRA. Los resultados mostraron mejoras drásticas en clasificación por fragmentos, pasando de un 8% a entre 90% y 97% de precisión. Sin embargo, la identificación exacta de técnicas ATT&CK sigue siendo un reto, con un 42% de acierto exacto, aunque los modelos capturan gran parte del razonamiento subyacente.

Este tipo de investigación abre la puerta a aplicaciones prácticas en el ámbito empresarial. Por ejemplo, una organización que desee implementar sistemas de detección avanzada puede beneficiarse de desarrollar aplicaciones a medida que integren estos modelos con sus fuentes de telemetría. La capacidad de correlacionar eventos de sistema, red y navegador es clave para identificar ataques en fases tempranas, y contar con servicios de ciberseguridad que incluyan inteligencia artificial puede marcar la diferencia en la protección de activos críticos.

Más allá de la ciberseguridad, la metodología empleada en este estudio tiene implicaciones para otros ámbitos donde se requiere análisis de series temporales heterogéneas. La combinación de modelos de lenguaje pequeños con técnicas de fine-tuning eficientes, como LoRA, permite desplegar agentes IA incluso en entornos con recursos limitados. Empresas que ofrecen servicios cloud AWS y Azure pueden integrar estos modelos como parte de sus soluciones de seguridad gestionada, reduciendo el tiempo de respuesta ante incidentes. Asimismo, la inteligencia de negocio se beneficia de la capacidad de estos sistemas para extraer patrones significativos de grandes volúmenes de datos, una tarea que tradicionalmente requería reglas manuales.

En Q2BSTUDIO, entendemos que la transformación digital de las organizaciones pasa por adoptar tecnologías que automaticen procesos y mejoren la toma de decisiones. Por ello, ofrecemos desde servicios inteligencia de negocio con Power BI hasta el desarrollo de software a medida que incorpora modelos de inteligencia artificial. La creación de datasets etiquetados con estándares como ATT&CK es un ejemplo de cómo la colaboración entre la academia y la industria puede generar herramientas que eleven el nivel de madurez en ciberseguridad. Si su empresa busca implementar soluciones de detección basadas en IA, o necesita un análisis profundo de sus logs, nuestro equipo puede diseñar e integrar los componentes necesarios para lograr un sistema robusto y escalable.

Compartir

Comentarios