STARE: Estabilización de entropía con reponderación de ventajas por token STARE estabiliza la entropía en RL para LLMs con reponderación de ventajas guiada por sorpresa, mejorando el razonamiento complejo. ¡Conócelo! 2026-06-18 · 2 min