CAST: Autoenseñanza no privilegiada con inversión de ventaja para GRPO CAST optimiza el RLVR con autoenseñanza no privilegiada y asignación de ventajas token en grupos de varianza cero. Mejora el razonamiento. 2026-06-02 · 2 min