ROSD: Destilación Auto-Reflexiva en Política para el Razonamiento de Modelos de Lenguaje en Múltiples Dominios
ROSD: destilación auto-reflexiva en política para razonamiento en múltiples dominios. Mejora el rendimiento de modelos de IA mediante reflexión y aprendizaje multi-dominio.