#capacidades de razonamiento

ConSteer-RL: Dirigiendo razonamiento en LLMs con RL consciente de confianza

Descubre cómo ConSteer-RL mejora el razonamiento de LLMs usando señales de confianza, logrando mejoras del 2.3% al 4%.