#estabilidad en entrenamiento

Descuento asimétrico en GRPO para RL eficiente

SA-AH-GRPO reduce la varianza un 3.6x y mejora la precisión en razonamiento matemático con descuento asimétrico por token. Resultados en GSM8K con Qwen.

2026-06-05 · 2 min