RLVR sin muestras ineficaces: POPO para razonamiento LLM POPO elimina muestras ineficaces acelerando el fine-tuning de LLM para razonamiento matemático, planificación y geometría visual con menos rollouts. 2026-06-02 · 2 min