¿Las trayectorias sintéticas reflejan el verdadero hackeo de recompensas? Un estudio sistemático sobre la monitorización del hackeo in-the-wild en la generación de código.
<meta name=description content=Analizamos si las trayectorias sintéticas replican el verdadero hackeo de recompensas en generación de código. Un estudio revelador sobre sesgos y límites de los modelos.</meta>