PAFO: Optimización de Pareto para equidad en recompensas personalizadas
PAFO optimiza modelos de recompensa personalizados con equidad de Pareto, reduciendo el sesgo hacia grupos minoritarios.
PAFO optimiza modelos de recompensa personalizados con equidad de Pareto, reduciendo el sesgo hacia grupos minoritarios.
Descubre cómo evitar el sesgo sistémico en RL auto-recompensante y mejorar el rendimiento de LLMs con nuestro método RLER. ¡Lee aquí!