El aprendizaje por refuerzo offline (offline RL) se ha consolidado como una de las áreas más prometedoras dentro de la inteligencia artificial aplicada a la toma de decisiones autónomas. A diferencia del RL tradicional, donde el agente interactúa directamente con el entorno, en el modo offline el modelo aprende exclusivamente de un conjunto estático de datos previamente recopilados. Esto elimina los riesgos de exploración en entornos reales, pero introduce un desafío clave: el 'distribution shift' o desajuste entre los datos de entrenamiento y las situaciones que el agente encuentra al ejecutar la política aprendida. Para mitigarlo, la mayoría de los enfoques existentes aplican un conservadurismo uniforme, penalizando acciones de forma constante sin considerar si el estado está bien o mal cubierto por los datos. Sin embargo, esta rigidez puede ser contraproducente: en regiones con abundante información se penaliza innecesariamente, mientras que en zonas con datos escasos el conservadurismo puede resultar insuficiente. Aquí es donde surgen propuestas como UNIQ (Uncertainty-Informed Quantile), un método que introduce un conservadurismo adaptativo utilizando calibración conformal. La idea central es estimar la incertidumbre de manera libre de distribución, ajustando el nivel de restricción según la cobertura local de los datos. Esto permite relajar las penalizaciones en áreas bien muestreadas y endurecerlas en aquellas próximas a la frontera del conjunto de entrenamiento. Técnicamente, UNIQ se construye sobre la arquitectura de Implicit Q-Learning (IQL) y emplea un ensamble de valores multi-expectil junto con predicción conformal partida para obtener estimaciones de incertidumbre libres de supuestos distribucionales. Los resultados en los benchmarks D4RL MuJoCo muestran mejoras consistentes frente a IQL, especialmente en tareas como Walker2d y aquellas con alto volumen de repetición, además de lograr un uso de memoria muy eficiente (unos 250 MB de VRAM pico), reduciendo drásticamente el coste computacional respecto a métodos como EDAC. Desde una perspectiva empresarial, la adaptabilidad que ofrece UNIQ tiene implicaciones directas en el desarrollo de ia para empresas que requieren sistemas de decisión autónomos fiables y eficientes. En Q2BSTUDIO, entendemos que integrar técnicas avanzadas de inteligencia artificial no solo implica implementar algoritmos, sino también diseñar software a medida que se adapte a las necesidades específicas de cada negocio. Por ejemplo, en entornos donde se manejan grandes volúmenes de datos históricos de procesos industriales o logísticos, un agente de RL offline con conservadurismo adaptativo puede mejorar la toma de decisiones sin necesidad de interacciones costosas con el mundo real. Además, la eficiencia computacional de UNIQ lo hace especialmente atractivo para implementaciones en la nube, ya que reduce los requisitos de memoria y permite escalar más fácilmente usando servicios cloud aws y azure. La calibración conformal, al ser un enfoque libre de distribución, también resulta robusta frente a cambios en la calidad de los datos, un aspecto crítico cuando se integran sistemas de ciberseguridad o monitorización continua. Otro punto relevante es la posibilidad de combinar estos modelos con servicios de inteligencia de negocio, como power bi, para visualizar cómo evoluciona la incertidumbre en las decisiones del agente a lo largo del tiempo. De igual modo, los avances en agentes IA que emplean este tipo de técnicas permiten automatizar procesos complejos con mayor seguridad y adaptabilidad, reduciendo el riesgo de fallos inesperados. En definitiva, UNIQ representa un paso adelante en la búsqueda de un conservadurismo inteligente, y su filosofía de adaptación local puede inspirar nuevas soluciones en campos que van desde la robótica hasta la gestión de inventarios. En Q2BSTUDIO, desarrollamos aplicaciones a medida que incorporan estos principios, ayudando a las organizaciones a aprovechar el potencial del RL offline sin los costes ocultos de un conservadurismo mal calibrado.