Pagando menos impuestos de generalización general: un estudio de generalización entre dominios del entrenamiento de RL para agentes de LLM
Estudio que analiza la transferibilidad del aprendizaje en Reinforcement Learning entre diferentes dominios para Language Model.