#reponderación de ventajas

STARE: Estabilización de entropía con reponderación de ventajas por token

STARE estabiliza la entropía en RL para LLMs con reponderación de ventajas guiada por sorpresa, mejorando el razonamiento complejo. ¡Conócelo!