La optimización de páginas completas en entornos de búsqueda y recomendación ha dado un salto cualitativo con la incorporación de modelos de lenguaje de gran escala, que permiten tratar la generación de una página como una secuencia coherente de elementos. Este enfoque, sin embargo, se enfrenta a dos barreras clásicas: la escasez de anotaciones humanas y la dificultad de alinear la coherencia global de la página con la relevancia de cada ítem individual. Un trabajo reciente propone un marco de recompensa multigranular que resuelve ambas limitaciones al aprovechar la retroalimentación implícita de los usuarios, evitando así costosos procesos manuales. La clave está en desacoplar la señal de recompensa en dos niveles: una recompensa gruesa a nivel de página, que captura propiedades como diversidad y coherencia, y una recompensa fina a nivel de ítem, sensible a cambios de posición que afectan el compromiso del usuario. La combinación de ambas, mediante un proceso de aprendizaje por refuerzo con retroalimentación humana basado en PPO, logra mejoras significativas en métricas como NDCG y se valida en entornos productivos con millones de usuarios. Este tipo de avances no solo redefine cómo se construyen las interfaces de recomendación, sino que también abre oportunidades para empresas que buscan aplicar inteligencia artificial en sus plataformas sin depender de etiquetado manual. En ese contexto, contar con un socio tecnológico que entienda la complejidad de estos sistemas resulta fundamental. Q2BSTUDIO, como empresa de desarrollo de software y tecnología, ofrece servicios de ia para empresas que permiten integrar modelos avanzados de lenguaje y optimización en productos reales, adaptando las soluciones a las necesidades específicas de cada negocio. La capacidad de construir aplicaciones a medida que incorporen agentes IA capaces de aprender de la interacción natural con los usuarios es una ventaja competitiva cada vez más demandada. Además, la gestión eficiente de estos sistemas requiere infraestructura robusta; por ello, los software a medida que desarrollamos se despliegan de forma segura y escalable sobre servicios cloud aws y azure, garantizando tanto el rendimiento como la ciberseguridad necesaria en entornos productivos. La integración de herramientas de inteligencia de negocio como power bi permite, además, monitorizar el impacto de las optimizaciones en indicadores clave como la tasa de clics o el valor bruto de la mercancía, cerrando el ciclo entre el modelo y el negocio. Este enfoque multigranular, que combina recompensas a nivel de página y de ítem, es un ejemplo de cómo la investigación aplicada puede traducirse en beneficios tangibles cuando se apoya en un ecosistema tecnológico completo, desde la concepción del modelo hasta su puesta en producción.