#rl offline

Coincidencia Adjunta Regularizada por Entropía para RL Fuera de Línea

RL fuera de línea con coincidencia adjunta y regularización por entropía para optimizar políticas de aprendizaje por refuerzo con datos históricos.

2026-05-09 · 2 min

De restricciones estáticas a adaptación dinámica: Liberación de restricciones a nivel de muestra para aprendizaje por refuerzo de offline a online

Explora la transición de restricciones estáticas a adaptación dinámica en RL offline a online. Claves para optimizar el aprendizaje por refuerzo.

2026-05-05 · 3 min

Hacia un aprendizaje por refuerzo fuera de línea eficiente y expresivo mediante Q-Learning anclado en flujo y condicionado por ruido

2026-05-05 · 2 min

QHyer: Transformer híbrido de atención-mamba condicionado por Q para RL offline condicionada por objetivos

QHyer: Transformer híbrido atención-mamba condicionado por Q para RL offline por objetivos. Modelo eficiente que mejora el aprendizaje por refuerzo offline orientado a metas.

2026-05-05 · 2 min