RL offline logra planificación efectiva con soluciones aleatorias
CDQAC: RL offline que aprende planificación efectiva incluso de soluciones aleatorias, superando heurísticas complejas con mínimos datos.
CDQAC: RL offline que aprende planificación efectiva incluso de soluciones aleatorias, superando heurísticas complejas con mínimos datos.
Descubre SOCD: política de difusión offline para planificación multiusuario con retardo. Reduce costos sin interacción en línea.
BFQ revoluciona el RL offline: genera acciones en un solo paso sin denoising, más rápido y expresivo que modelos de difusión. Mejora rendimiento en D4RL.
UNIQ: calibración conformal para RL offline con conservadurismo adaptativo. Mejora el rendimiento con bajo costo de memoria. ¡Descúbrelo!
Refina trayectorias offline de forma conservadora con flujos contrafactuales. Mejora políticas a partir de datos históricos sin extrapolar. Resultados en D4RL.
La combinación de Q* y Bellman completa no es suficiente para RL offline con cobertura parcial. Descubre el nuevo marco teórico y mejoras.
RL4F: el benchmark de aprendizaje por refuerzo offline para control de plasma en fusión nuclear. Evaluamos métodos de RL e imitación en tareas de perfil completo con datos reales del tokamak DIII-D.
Descubre ADWM, un marco de evaluación offline que simula entornos interactivos para estimar el rendimiento de agentes LLM sin necesidad de ejecución en línea.
Descubre por qué los selectores offline no superan al modelo único en predicción de abandono de edX. Diagnóstico revela el cuello de botella y próximos pasos.
Descubre SAGE, un nuevo método de reordenamiento que mejora la robustez de los planificadores de difusión mediante autosupervisión y energías, sin necesidad de reentrenamiento.
Nuevo método unifica incertidumbre epistémica y de modelo en RL offline. Optimización regularizada con creencia bayesiana híbrida.