#aprendizaje por refuerzo offline

RL offline logra planificación efectiva con soluciones aleatorias

CDQAC: RL offline que aprende planificación efectiva incluso de soluciones aleatorias, superando heurísticas complejas con mínimos datos.

2026-06-11 · 2 min

Política de difusión offline para planificación multiusuario con retardo

Descubre SOCD: política de difusión offline para planificación multiusuario con retardo. Reduce costos sin interacción en línea.

2026-06-11 · 3 min

Aprendizaje rápido y expresivo para RL offline con Bootstrapped Flow Q-Learning

BFQ revoluciona el RL offline: genera acciones en un solo paso sin denoising, más rápido y expresivo que modelos de difusión. Mejora rendimiento en D4RL.

2026-06-10 · 2 min

UNIQ: Calibración Conformal para Conservadurismo Adaptativo en RL Offline

UNIQ: calibración conformal para RL offline con conservadurismo adaptativo. Mejora el rendimiento con bajo costo de memoria. ¡Descúbrelo!

2026-06-09 · 3 min

Refinamiento conservador de trayectorias con flujos contrafactuales

Refina trayectorias offline de forma conservadora con flujos contrafactuales. Mejora políticas a partir de datos históricos sin extrapolar. Resultados en D4RL.

2026-06-09 · 2 min

Complejidad del aprendizaje por refuerzo offline con Q* y cobertura parcial

La combinación de Q* y Bellman completa no es suficiente para RL offline con cobertura parcial. Descubre el nuevo marco teórico y mejoras.

2026-06-09 · 2 min

RL Offline para Control de Plasma en Fusión Nuclear: Benchmark y Código Abierto

RL4F: el benchmark de aprendizaje por refuerzo offline para control de plasma en fusión nuclear. Evaluamos métodos de RL e imitación en tareas de perfil completo con datos reales del tokamak DIII-D.

2026-06-09 · 2 min

Modelos Mundiales de Difusión Autoregresiva para Evaluar Agentes LLM

Descubre ADWM, un marco de evaluación offline que simula entornos interactivos para estimar el rendimiento de agentes LLM sin necesidad de ejecución en línea.

2026-06-05 · 2 min

Diagnóstico de selectores offline: ¿por qué no superan al mejor modelo?

Descubre por qué los selectores offline no superan al modelo único en predicción de abandono de edX. Diagnóstico revela el cuello de botella y próximos pasos.

2026-06-04 · 3 min

Mejora de planificadores de difusión con SAGE y autosupervisión

Descubre SAGE, un nuevo método de reordenamiento que mejora la robustez de los planificadores de difusión mediante autosupervisión y energías, sin necesidad de reentrenamiento.

2026-06-02 · 2 min

Optimización offline regularizada con creencia bayesiana híbrida posterior

Nuevo método unifica incertidumbre epistémica y de modelo en RL offline. Optimización regularizada con creencia bayesiana híbrida.

2026-06-02 · 2 min