#tnt

TNT: Solución al reward hacking en modelos híbridos

Descubre cómo TNT reduce el uso de tokens un 50% sin sacrificar precisión, eliminando el reward hacking en modelos de razonamiento.