Seleccionar y mejorar: la mecánica del post-entrenamiento para razonamiento
El post-entrenamiento con RL activa selección y mejora de estrategias. Experimentos con Qwen-2.5 revelan mecanismos clave para escalar razonamiento.
El post-entrenamiento con RL activa selección y mejora de estrategias. Experimentos con Qwen-2.5 revelan mecanismos clave para escalar razonamiento.
CAAL usa bandidos contextuales para seleccionar dinámicamente estrategias de aprendizaje activo basadas en contexto externo.