#selección de estrategias

Seleccionar y mejorar: la mecánica del post-entrenamiento para razonamiento

El post-entrenamiento con RL activa selección y mejora de estrategias. Experimentos con Qwen-2.5 revelan mecanismos clave para escalar razonamiento.

CAAL usa bandidos contextuales para seleccionar dinámicamente estrategias de aprendizaje activo basadas en contexto externo.