#supervisión densa

CAST: Autoenseñanza no privilegiada con inversión de ventaja para GRPO

CAST optimiza el RLVR con autoenseñanza no privilegiada y asignación de ventajas token en grupos de varianza cero. Mejora el razonamiento.