Prioriza el proceso, no solo el resultado: Recompensar las trayectorias de pensamiento latente mejora el razonamiento en modelos de lenguaje en bucle
Recompensar el pensamiento latente mejora el razonamiento en modelos de lenguaje en bucle. Prioriza el proceso para optimizar resultados.