Una nueva investigación de NVIDIA muestra que la decodificación especulativa en NeMo RL logra una aceleración de 1.8× en la generación de despliegues a 8B y proyecta una aceleración de extremo a extremo de 2.5× a 235B
<meta name=description content=NVIDIA NeMo RL usa decodificación especulativa para acelerar modelos: 1.8× en 8B y hasta 2.5× en 235B. Descubre cómo funciona esta innovación en IA.>