RL offline logra planificación efectiva con soluciones aleatorias CDQAC: RL offline que aprende planificación efectiva incluso de soluciones aleatorias, superando heurísticas complejas con mínimos datos. 2026-06-11 · 2 min