NVIDIA AI lanza Star Elastic: Un checkpoint que contiene modelos de razonamiento de 30B, 23B y 12B con segmentación zero-shot.

La proliferación de modelos de lenguaje de gran escala (LLMs) ha traído consigo un desafío recurrente: para ofrecer soluciones que se ajusten a distintos presupuestos de cómputo y requisitos de latencia, los equipos técnicos suelen entrenar, almacenar y desplegar versiones independientes de un mismo modelo base. Esto multiplica los costos de infraestructura y complica la gestión de versiones. NVIDIA ha propuesto una alternativa innovadora bajo el nombre Star Elastic, un método de post-entrenamiento que permite incrustar varios submódulos anidados dentro de un único modelo razonador, de modo que con un solo entrenamiento se obtienen múltiples configuraciones de parámetros que pueden extraerse sin necesidad de ajuste fino adicional. La propuesta, aplicada sobre Nemotron Nano v3, ofrece versiones de 30B, 23B y 12B de parámetros totales, todas residiendo en un mismo checkpoint.

La clave técnica de Star Elastic reside en la compartición de pesos anidados. En lugar de entrenar tres modelos separados, se entrena uno que contiene los más pequeños como subconjuntos de sí mismo. El método evalúa la importancia de cada componente –canales de embedding, cabezas de atención, cabezas del modelo de espacio de estados, expertos MoE y canales de la red feed‑forward– y los ordena de mayor a menor contribución a la precisión. De esta forma, los modelos más pequeños siempre utilizan los componentes mejor clasificados del modelo padre. Además, se emplea un router entrenable que, mediante una señal de presupuesto (número de parámetros, memoria o latencia), genera máscaras diferenciables que seleccionan qué partes del modelo activar. Este router se entrena junto con el modelo usando destilación de conocimiento y una función de pérdida que penaliza desviaciones del presupuesto objetivo, lo que permite optimizar directamente la precisión bajo restricciones de recursos.

Una ventaja operativa relevante es la posibilidad de usar distintos submódulos para diferentes fases del razonamiento. Por ejemplo, se puede emplear un modelo más pequeño durante la generación de la cadena de pensamiento y uno mayor para la respuesta final. Esta segmentación mejora la relación precisión‑latencia, ofreciendo hasta un 16 % más de exactitud con 1,9 veces menos demora respecto al control de presupuesto tradicional. También se ha trabajado la cuantificación sin romper la estructura anidada: un único checkpoint cuantificado con destilación consciente de cuantificación conserva la capacidad de extraer todas las variantes, reduciendo drásticamente el consumo de memoria. Por ejemplo, el checkpoint de 30B en formato NVFP4 ocupa solo 18,7 GB, permitiendo ejecutar la variante de 12B en una tarjeta gráfica de consumo como la RTX 5080, donde las versiones BF16 no cabían.

Este enfoque tiene implicaciones directas para equipos que desarrollan aplicaciones a medida y necesitan desplegar inteligencia artificial en entornos con recursos heterogéneos. La capacidad de elegir entre distintos niveles de capacidad desde un único checkpoint simplifica el mantenimiento y reduce los costos de almacenamiento y despliegue. Empresas que construyen IA para empresas pueden beneficiarse de esta flexibilidad para adaptar el rendimiento de sus sistemas de razonamiento sin multiplicar la infraestructura. Además, la técnica de segmentación por fases abre la puerta a integraciones más eficientes con agentes de IA que combinan razonamiento prolongado con respuestas precisas, un esquema que encaja con las necesidades de automatización de procesos y servicios inteligencia de negocio.

En el contexto de la ciberseguridad, contar con modelos que puedan ejecutarse en hardware limitado sin perder precisión resulta crítico para auditorías en tiempo real o análisis de logs donde la latencia importa. Y desde la perspectiva de servicios cloud AWS y Azure, la reducción de huella de memoria se traduce en menor facturación por instancias de GPU, lo que permite escalar horizontalmente sin desbordar el presupuesto. Herramientas como Power BI o dashboards de inteligencia de negocio también pueden integrar estos modelos como motores de razonamiento auxiliar, siempre que se disponga de la capacidad de elegir dinámicamente el tamaño del modelo según la carga de trabajo.

NVIDIA Star Elastic representa un paso hacia una gestión más eficiente de los LLMs, donde la flexibilidad no se paga con costos de entrenamiento repetidos. Para las organizaciones que buscan implementar soluciones de software a medida con componentes de razonamiento avanzado, esta metodología ofrece un camino práctico para equilibrar precisión, velocidad y coste operativo.

Compartir

Comentarios