La optimización de compuestos líder en el descubrimiento de fármacos enfrenta el reto de equilibrar la mejora de propiedades terapéuticas con la viabilidad sintética de las moléculas. Los métodos tradicionales suelen priorizar puntuaciones de actividad sin garantizar que las modificaciones sean realizables en un laboratorio, o recurren a costosas enumeraciones sobre redes de reacción. En este contexto, los sistemas de aprendizaje por refuerzo combinados con modelos de lenguaje de gran escala (LLM) ofrecen una vía prometedora, ya que permiten explorar espacios químicos complejos mediante agentes inteligentes. Un enfoque innovador consiste en modelar la optimización como un proceso de decisión de Markov donde las acciones posibles están restringidas por plantillas de reacción validadas, es decir, solo se permiten transformaciones químicamente factibles. El agente, potenciado por un LLM y herramientas de análisis especializadas, identifica sitios reactivos y grupos funcionales, propone un conjunto reducido de transformaciones fundamentadas y utiliza un modelo de política entrenado mediante optimización de política relativa por grupos (GRPO) para seleccionar la mejor acción en cada paso. Este esquema garantiza que cada molécula generada no solo mejore las propiedades deseadas, sino que venga acompañada de una ruta sintética explícita. La incorporación de un caché basado en SMILES reduce el tiempo de optimización global en aproximadamente un 43 por ciento. En tareas de optimización de propiedades y acoplamiento molecular, esta estrategia logra los mejores puntajes promedio y la mayor eficiencia de muestreo en la mayoría de los casos. Desde la perspectiva empresarial, soluciones de este tipo se integran perfectamente en plataformas de ia para empresas que buscan automatizar procesos complejos de diseño molecular. En Q2BSTUDIO desarrollamos aplicaciones a medida y software a medida que incorporan agentes IA capaces de adaptarse a dominios especializados como la química computacional, además de ofrecer servicios cloud aws y azure para escalar estos sistemas, ciberseguridad para proteger datos sensibles, y servicios inteligencia de negocio con power bi para visualizar resultados. La combinación de aprendizaje por refuerzo y LLM en espacios de acción restringidos representa un avance clave para la industria farmacéutica, donde la trazabilidad sintética y la eficiencia computacional son críticas. Al integrar estos métodos en plataformas de inteligencia artificial y automatización de procesos, las empresas pueden reducir drásticamente los ciclos de diseño y aumentar la probabilidad de éxito en ensayos preclínicos. El enfoque demuestra que es posible mejorar propiedades sin sacrificar la factibilidad química, abriendo nuevas posibilidades para la optimización de compuestos líder en entornos industriales.