Comportamientos de escalado del aprendizaje reforzado LLM post-entrenamiento: Un estudio empírico en razonamiento matemático
Investigación que explora el escalado en el aprendizaje reforzado en el contexto del entrenamiento en LLM, con un enfoque empírico para obtener resultados significativos.