RHO: Optimización Autosupervisada del Arnés de Agentes LLM RHO optimiza el arnés de agentes LLM usando solo trayectorias pasadas, sin etiquetas. Un solo ciclo mejora la tasa de acierto del 59% al 78% en SWE-Bench Pro. 2026-06-05 · 1 min