Recompensa moldeada para alineación en inferencia: Juego de Stackelberg Descubre cómo el moldeado de recompensas desde la perspectiva del juego de Stackelberg mejora la alineación de LLMs en inferencia, reduciendo sesgos y aumentando el rendimiento. 2026-06-09 · 1 min