Nous Research lanza el entrenamiento de superposición de tokens para acelerar el preentrenamiento de LLM hasta 2.5 veces en modelos de 270M a 10B parámetros

La optimización del preentrenamiento de modelos de lenguaje de gran escala (LLM) se ha convertido en un objetivo estratégico para cualquier organización que busque reducir costes computacionales sin sacrificar rendimiento. Nous Research ha presentado recientemente Token Superposition Training (TST), una técnica que logra acelerar el tiempo total de preentrenamiento hasta 2,5 veces, manteniendo el mismo presupuesto de FLOPs y sin modificar la arquitectura del modelo, el optimizador, el tokenizador ni las estrategias de paralelización. El método opera en dos fases secuenciales: en la primera, denominada de superposición, las secuencias de tokens se agrupan en bolsas de tamaño s y se promedian sus embeddings, reduciendo la longitud efectiva de la secuencia y permitiendo que el modelo procese s veces más texto por unidad de cómputo. En la segunda fase, llamada de recuperación, se retoma la predicción estándar del siguiente token desde el mismo checkpoint, eliminando por completo cualquier rastro del mecanismo de superposición. Los resultados experimentales sobre modelos de 270M, 600M, 3B parámetros densos y un modelo MoE de 10B-A1B muestran una pérdida (loss) final más baja y métricas superiores en benchmarks como HellaSwag, ARC y MMLU. Por ejemplo, en la escala de 10B MoE, TST alcanzó una pérdida de 2,236 frente a 2,252 del baseline, empleando 4.768 horas GPU B200 frente a 12.311 horas del entrenamiento convencional, lo que representa una reducción del 60% en tiempo de cómputo. Es importante destacar que TST consume más tokens de datos por unidad de FLOP, por lo que está especialmente indicado para escenarios donde el cuello de botella es la capacidad de cómputo, no la disponibilidad de datos. Esta innovación abre nuevas posibilidades en la optimización de pipelines de IA, y empresas como Q2BSTUDIO están continuamente explorando cómo integrar métodos de entrenamiento eficientes en sus soluciones de ia para empresas, ofreciendo aplicaciones a medida que aprovechan los últimos avances en inteligencia artificial. La técnica también puede combinarse con otras optimizaciones, como aquellas que proporcionan los servicios cloud aws y azure, permitiendo escalar cargas de trabajo de forma rentable. Además, el control de la calidad de los datos y la seguridad del pipeline son aspectos críticos que abordamos mediante servicios de ciberseguridad y servicios inteligencia de negocio, donde herramientas como power bi ayudan a monitorizar el rendimiento de los modelos en producción. La capacidad de desplegar agentes IA eficientes es otra área donde la reducción de tiempos de preentrenamiento tiene un impacto directo, y en Q2BSTUDIO trabajamos en software a medida para integrar estas capacidades en los sistemas de nuestros clientes. Para quienes buscan optimizar sus pipelines de entrenamiento, TST representa una vía prometedora que, combinada con las mejores prácticas de infraestructura y desarrollo, puede marcar la diferencia en costes y velocidad de iteración.

Compartir

Comentarios