GEAR: Re-ponderación de Ventajas Adaptativa a la Granularidad para Agentes de LLM mediante Auto-Destilación
<meta content=Descubre GEAR: re-ponderación de ventajas adaptativa a la granularidad para agentes de LLM mediante auto-destilación. Optimiza el aprendizaje por refuerzo en modelos de lenguaje.>