RLCSD: Aprendizaje por Refuerzo con Autodestilación Contrastiva
RLCSD mejora la autodestilación al contrastar señales con pistas correctas e incorrectas, superando la deriva de estilo y obteniendo mejores resultados que GRPO en razonamiento.
RLCSD mejora la autodestilación al contrastar señales con pistas correctas e incorrectas, superando la deriva de estilo y obteniendo mejores resultados que GRPO en razonamiento.
RLCSD mejora el razonamiento en modelos de IA al corregir la deriva de estilo inducida por privilegios. Descubre cómo supera a GRPO en tareas lógicas y matemáticas.