#balance de pérdida adaptativo

Balance Adaptativo de Pérdida para GRPO Robusto en Recomendación Generativa

AdaGRPO optimiza modelos generativos con balance adaptativo de pérdida y recompensa, mejorando CTR y retención en e-commerce.