Presentamos un marco novedoso de optimización dinámica de formación de haces para redes WLAN de 60 GHz basado en Aprendizaje por Refuerzo de Múltiples Agentes adaptativo. Este enfoque descentraliza las decisiones de beamforming a cada punto de acceso, logrando una mejora sustancial en la eficiencia espectral y la experiencia de usuario en despliegues densos frente a técnicas estáticas o reactivas tradicionales. La arquitectura es apta para comercialización en un horizonte de 3 a 5 años y responde a la necesidad crítica de mayor capacidad y fiabilidad para aplicaciones de alto ancho de banda.

Introducción y motivación Este estudio surge de la creciente demanda de comunicaciones inalámbricas de alto ancho de banda. Las bandas de 60 GHz ofrecen un espectro mucho mayor que 2.4 GHz y 5 GHz pero presentan pérdidas de trayectoria altas y sensibilidad a bloqueos. La formación de haces es clave para mitigar estos problemas, y los métodos actuales suelen ser estáticos o demasiado lentos para reaccionar ante cambios rápidos en el canal o movilidad de usuarios. Aquí proponemos un sistema adaptativo que ajusta en tiempo cercano la dirección y forma del haz según las condiciones locales.

Marco teórico y arquitectura propuesta El sistema adopta una arquitectura MARL descentralizada donde cada punto de acceso actúa como agente independiente que aprende a optimizar sus pesos de beamforming con observaciones locales como potencia recibida por usuario RSSI, ángulo de llegada AoA e indicadores de interferencia de vecinos. Se emplea una versión de Deep Q-Network adaptada para manejar espacios de acción continuos mediante discretización fina de vectores de beamforming. El espacio de estado de cada agente incluye RSSI por usuario, AoA estimado y niveles de interferencia. El espacio de acciones representa vectores complejos de beamforming con restricción de magnitud, discretizados para entrenamiento. La función de recompensa promueve utilización espectral eficiente y equidad entre usuarios combinando la suma ponderada de RSSI por usuario y una penalización por interferencia a agentes vecinos.

Aspectos algorítmicos El agente aprende mediante una red neuronal profunda que aproxima la función Q(s, a). La actualización sigue la regla clásica del DQN: se ajustan los valores Q en función de la recompensa observada, la estimación de la mejor acción futura y factores de tasa de aprendizaje y descuento. En la práctica se calibran tasa de aprendizaje y factor de descuento para equilibrar adaptación rápida y estabilidad. La adaptación de DQN a acciones continuas permite un control de haz más fino que técnicas discretas tradicionales.

Diseño experimental y validación La evaluación se realizó en un simulador personalizado basada en trazado de rayos y modelos inspirados en IEEE 802.11ad. Características principales: topología de 25 AP en una cuadrícula en un área de 100 m por 100 m, movilidad de usuarios con modelo random waypoint a 2 m por segundo, modelo de canal con línea de retardo por recurrencias, pérdidas por trayectoria, sombreado y desvanecimiento. Se comparó el enfoque MARL contra beamforming estático y beamforming reactivo periódico basado en actualizaciones de RSSI.

Resultados clave El sistema MARL superó a las alternativas en métricas de rendimiento y equidad. Promedios observados: throughput medio 150 Mbps en estático, 280 Mbps en reactivo y 450 Mbps en MARL. Índice de equidad de Jain 0.65, 0.82 y 0.95 respectivamente. Tiempo de convergencia aproximado N/A para estático, más de 60 segundos en reactivo y 15 segundos en MARL. En conjunto, MARL mostró un aumento de throughput de alrededor de 60 por ciento frente a la técnica reactiva y mayor uniformidad en la distribución de recursos entre usuarios.

Escalabilidad y hoja de ruta comercial A corto plazo 1 a 2 años se prevé despliegues en entornos empresariales con densidad moderada, como oficinas y espacios de coworking. A medio plazo 3 a 5 años la integración en routers de consumo de 60 GHz y mejoras de rendimiento en entornos urbanos densos. A largo plazo 5 a 10 años adopción en escenarios de alta densidad como estadios y centros comerciales e integración con 5G y futuras redes 6G.

Limitaciones y futuras líneas de trabajo Entre los retos figuran la exigencia computacional en los AP, la sensibilidad al diseño de la función de recompensa y la necesidad de aceleración hardware para respuestas en tiempo real. Líneas futuras incluyen explorar algoritmos MARL alternativos, incorporar métricas de calidad de experiencia QoE en la recompensa y llevar a producción con aceleración por FPGA o ASIC.

Sobre Q2BSTUDIO Q2BSTUDIO es una empresa de desarrollo de software y aplicaciones a medida especializada en inteligencia artificial, ciberseguridad y servicios cloud. Ofrecemos soluciones a medida en desarrollo de aplicaciones y software a medida, despliegues seguros y escalables en plataformas cloud como AWS y Azure, y proyectos de inteligencia de negocio y visualización con Power BI. Nuestro equipo combina experiencia en agentes IA, ia para empresas y servicios de ciberseguridad y pentesting para garantizar soluciones robustas y con enfoque en negocio. Para proyectos de inteligencia artificial y agentes adaptativos visite nuestra página de servicios de inteligencia artificial Servicios de inteligencia artificial en Q2BSTUDIO y para soluciones de infraestructura y despliegue en la nube consulte Servicios cloud AWS y Azure.

Aplicaciones prácticas y oferta de valor Implementamos sistemas de optimización dinámica como prueba de concepto y como producto integrado en routers empresariales o plataformas edge. Nuestra propuesta incluye desarrollo de software a medida, integración con servicios cloud, aseguramiento mediante pruebas de ciberseguridad, y paneles de inteligencia de negocio para monitorizar rendimiento y calidad de servicio. Palabras clave que describen nuestra oferta: aplicaciones a medida, software a medida, inteligencia artificial, ciberseguridad, servicios cloud aws y azure, servicios inteligencia de negocio, ia para empresas, agentes IA y power bi.

Conclusión El marco Adaptive MARL para formación de haces en 60 GHz demuestra que la descentralización y el aprendizaje colaborativo entre APs aumentan significativamente la eficiencia espectral, la equidad entre usuarios y reducen el tiempo de convergencia frente a métodos tradicionales. Q2BSTUDIO está preparada para acompañar a empresas en la adopción de estas tecnologías mediante soluciones a medida que integran IA, cloud y seguridad para llevar la investigación a despliegues reales.

Keywords: aplicaciones a medida, software a medida, inteligencia artificial, ciberseguridad, servicios cloud aws y azure, servicios inteligencia de negocio, ia para empresas, agentes IA, power bi