#stare

STARE: Estabilización de entropía con reponderación de ventajas por token

STARE estabiliza la entropía en RL para LLMs con reponderación de ventajas guiada por sorpresa, mejorando el razonamiento complejo. ¡Conócelo!