APPO: Optimización Procedimental Agencial de Políticas
APPO mejora el aprendizaje por refuerzo en agentes de IA asignando crédito preciso a decisiones intermedias. Resultados en 13 benchmarks.
APPO mejora el aprendizaje por refuerzo en agentes de IA asignando crédito preciso a decisiones intermedias. Resultados en 13 benchmarks.
Aprende cómo los LLMs mejoran el diseño de recompensas en RL cooperativo multiagente, logrando mayor rendimiento en Overcooked.