RODS: Síntesis online de datos guiada por recompensas para agentes multi-turno RODS sintetiza datos online guiado por recompensa para agentes multi-turno, logrando rendimiento comparable con 20x menos trayectorias que pipelines offline. 2026-06-18 · 2 min