#síntesis de datos online

RODS: Síntesis online de datos guiada por recompensas para agentes multi-turno

RODS sintetiza datos online guiado por recompensa para agentes multi-turno, logrando rendimiento comparable con 20x menos trayectorias que pipelines offline.

2026-06-18 · 2 min