PrAg-PO: Optimización de Políticas Aumentada por Prompts para el Razonamiento Matemático Robusto y Diverso
PrAg-PO optimiza políticas con prompts para razonamiento matemático robusto. Método innovador que mejora precisión y eficiencia en modelos de lenguaje.