#sesgo de recompensa

PAFO: Optimización de Pareto para equidad en recompensas personalizadas

PAFO optimiza modelos de recompensa personalizados con equidad de Pareto, reduciendo el sesgo hacia grupos minoritarios.

Descubre cómo evitar el sesgo sistémico en RL auto-recompensante y mejorar el rendimiento de LLMs con nuestro método RLER. ¡Lee aquí!