Descuento asimétrico en GRPO para RL eficiente
SA-AH-GRPO reduce la varianza un 3.6x y mejora la precisión en razonamiento matemático con descuento asimétrico por token. Resultados en GSM8K con Qwen.
SA-AH-GRPO reduce la varianza un 3.6x y mejora la precisión en razonamiento matemático con descuento asimétrico por token. Resultados en GSM8K con Qwen.
<meta name=description content=Aprendizaje por refuerzo eficiente en muestras usando difusión y guía de crítica. Descubre cómo optimizar políticas con muestreo inteligente y críticas precisas.>