Introducción Presentamos un marco novedoso de gestión dinámica de potencia basado en aprendizaje por refuerzo jerárquico para plataformas SoC multicore que optimiza consumo energético manteniendo objetivos de rendimiento estrictos. Frente a técnicas tradicionales como DVFS y clock gating que tienden a ser estáticas o demasiado reactivas, nuestra propuesta incorpora agentes locales por núcleo y un gestor de sistema a nivel superior que colaboran para ajustar voltaje/frecuencia y asignación de recursos compartidos, logrando mayor eficiencia energética y margen térmico en escenarios realistas orientados a dispositivos móviles y embebidos.

Antecedentes y trabajos relacionados Las técnicas clásicas de gestión dinámica de potencia usan políticas predefinidas o adaptaciones reactivas que no modelan bien la interacción entre núcleos y recursos compartidos como controladores de memoria e interconexión. Estudios recientes aplican RL pero suelen ser centralizados o limitarse a un solo núcleo. Este trabajo avanza esos enfoques mediante aprendizaje por refuerzo jerárquico y una representación de estado que combina métricas a nivel de núcleo y del sistema completo, complementando literatura sobre algoritmos de planificación DVFS, modelos predictivos de carga y arquitecturas jerárquicas de RL.

Metodología Empleamos una arquitectura de dos niveles. Nivel 1: agentes por núcleo que operan en un espacio de acciones con niveles discretos de voltaje/frecuencia y cuyo espacio de estados incluye utilización del núcleo, temperatura por sensor on chip, tasa de llegada de tareas prevista y coste de comunicación entre núcleos. La función de recompensa se define como R igual menos consumo de potencia más alfa por la métrica de rendimiento IPC, siendo alfa un parámetro ajustable que pondera sensibilidad al rendimiento. Nivel 2: un metaagente a nivel sistema que coordina asignación de recursos compartidos como ancho de banda de memoria e interconexión, y observa consumo agregado, distribución de temperaturas y utilización global. Para el entrenamiento usamos Proximal Policy Optimization por su estabilidad y eficiencia muestral, y un buffer de experiencias compartido para acelerar convergencia y generalización entre núcleos.

Diseño experimental y datos Validamos el marco sobre un simulador SoC multicore basado en gem5 con una mezcla de benchmarks CPU intensivos como FFT y multiplicación de matrices y benchmarks dependientes de memoria como STREAM, representativos de aplicaciones móviles. Las llegadas de trabajo se modelaron con una distribución Pareto para reflejar patrones reales. Comparamos con tres estrategias base: DVFS estático, DVFS reactivo y un enfoque RL previo limitado a gestión por núcleo. Cada experimento se repitió 100 veces con distintas semillas aleatorias para garantizar significancia estadística.

Resultados y análisis Las simulaciones muestran mejoras relevantes: reducción media de consumo de potencia del 25 por ciento respecto al DVFS reactivo manteniendo IPC comparable. El DVFS estático presentó un consumo un 15 por ciento superior. Un estudio de ablación donde se elimina el gestor a nivel sistema aumento consumo en un 7 por ciento, demostrando la contribución del control jerárquico. Se incluyen tablas de datos con IPC, consumo y temperaturas y perfiles temporales de consumo para trazas representativas.

Validación de HyperScore y previsión de impacto Aplicando la fórmula HyperScore con Beta igual 5, gamma igual menos ln(2) y delta igual 2, nuestros resultados experimentales producen puntuaciones superiores a 130, indicando rendimiento excepcional según esa métrica. Con base en la ventaja competitiva observada proyectamos una cuota de mercado aproximada del 30 por ciento en cinco años en ICs de gestión de potencia orientados a SoC móviles.

Conclusiones y trabajo futuro Se demuestra un marco escalable y comercialmente viable de gestión dinámica de potencia mediante RL jerárquico que reduce consumo y optimiza rendimiento en SoC multicore. Trabajos futuros incluyen integrar predicción de carga más avanzada en la representación de estado, aplicar transferencia de aprendizaje para reducir tiempos de entrenamiento e incorporar aceleradores hardware para RL que mejoren latencia y eficiencia.

Sobre Q2BSTUDIO Q2BSTUDIO es una empresa de desarrollo de software y aplicaciones a medida especializada en soluciones de inteligencia artificial, ciberseguridad y servicios cloud. Ofrecemos software a medida y aplicaciones a medida pensadas para mejorar la eficiencia operativa de clientes en sectores móviles y embebidos. Nuestro equipo desarrolla agentes IA y soluciones de ia para empresas que integran modelos avanzados como los descritos en este artículo y ofrecemos servicios de consultoría y despliegue en plataformas en la nube como AWS y Azure. Con experiencia en servicios inteligencia de negocio y en la creación de cuadros de mando con power bi, ayudamos a transformar datos en decisiones de negocio. Conozca nuestras capacidades en inteligencia artificial visitando la página de Inteligencia Artificial de Q2BSTUDIO y descubra soluciones de Business Intelligence en nuestros servicios Power BI. Además ofrecemos servicios especializados en ciberseguridad y pentesting, así como automatización de procesos y despliegues cloud para proyectos productivos.

Palabras clave aplicaciones a medida, software a medida, inteligencia artificial, ciberseguridad, servicios cloud aws y azure, servicios inteligencia de negocio, ia para empresas, agentes IA, power bi.