TNT: Solución al reward hacking en modelos híbridos Descubre cómo TNT reduce el uso de tokens un 50% sin sacrificar precisión, eliminando el reward hacking en modelos de razonamiento. 2026-06-16 · 1 min