Zyphra lanza ZAYA1-8B-Diffusion-Preview: el primer modelo de difusión MoE convertido a partir de un LLM autorregresivo con una aceleración de hasta 7.7x

La reciente publicación de Zayphra con su modelo ZAYA1-8B-Diffusion-Preview marca un hito en la evolución de la inteligencia artificial generativa, al demostrar que es posible transformar un modelo de lenguaje autorregresivo en uno de difusión sin sacrificar precisión y con ganancias significativas en velocidad de inferencia. Este avance no solo interesa a los laboratorios de investigación, sino que tiene implicaciones directas para las empresas que buscan desplegar IA para empresas de forma eficiente y escalable.

La arquitectura tradicional de los grandes modelos de lenguaje genera texto token por token, lo que provoca un cuello de botella en el ancho de banda de memoria: cada nuevo token obliga a cargar la caché KV de cada usuario de forma individual, dejando a la GPU infrautilizada. La aproximación de difusión, en cambio, permite generar múltiples tokens en paralelo dentro de un mismo bloque, compartiendo una sola caché y transformando la operación de limitada por memoria a limitada por cómputo. Esto explica la aceleración de hasta 7,7 veces que reporta Zyphra en hardware AMD, una mejora que resulta crítica para entornos productivos donde cada milisegundo cuenta.

Lo más relevante desde un punto de vista práctico es que Zyphra no ha entrenado el modelo desde cero, sino que ha convertido su checkpoint autorregresivo ZAYA1-8B mediante 1,1 billones de tokens de mid-training siguiendo la receta TiDAR. Esta estrategia evita la complejidad de entrenar un modelo de difusión desde el inicio y, al mismo tiempo, aprovecha todo el trabajo de pre-entrenamiento previo. Para una empresa que desarrolla aplicaciones a medida con capacidades generativas, esta vía de conversión resulta mucho más accesible que construir un modelo completamente nuevo, ya que reduce costes computacionales y acelera el tiempo de llegada al mercado.

El modelo emplea dos estrategias de muestreo: un sampler lossless que ofrece una aceleración de 4,6x sin degradación medible, y un sampler de mezcla de logits que alcanza 7,7x a costa de un leve impacto en calidad, seleccionable en tiempo de ejecución. Esta flexibilidad permite adaptar el rendimiento a las necesidades de cada carga de trabajo, algo muy valorado en entornos donde se combinan inferencia en tiempo real con procesamiento por lotes. Además, al actuar el mismo modelo como especulador y verificador en un solo paso, se elimina la sobrecarga de tener dos modelos separados, como ocurre en técnicas clásicas de decodificación especulativa.

Desde una perspectiva arquitectónica, ZAYA1-8B-Diffusion-Preview utiliza la variante de atención CCA con CCGQA y una compresión 2x, lo que reduce drásticamente los FLOPs de prefill y permite difundir más tokens en paralelo antes de alcanzar el límite de cómputo. En hardware AMD MI300x puede manejar aproximadamente tres propuestas por bloque, y en MI355x hasta cinco. Esta eficiencia es clave para equipos de machine learning que buscan optimizar el uso de GPU, especialmente cuando se combina con servicios cloud como los que ofrecen servicios cloud AWS y Azure, donde el coste por hora de cómputo es un factor determinante.

La implicación más profunda de este trabajo está en el ámbito del aprendizaje por refuerzo: las políticas on-policy requieren generar secuencias completas del modelo, y acelerar esa generación reduce drásticamente el coste de las iteraciones de RL. Para cualquier compañía que desarrolle agentes IA o sistemas de razonamiento automático, poder realizar más experimentos de RL con el mismo presupuesto de hardware supone una ventaja competitiva real. También abre la puerta a integrar estos modelos en soluciones de servicios inteligencia de negocio y análisis predictivo, donde la velocidad de respuesta es tan importante como la precisión.

Zyphra ha demostrado que la conversión de modelos autorregresivos a difusión es viable y práctica, y que los beneficios de velocidad se obtienen sin necesidad de volver a entrenar desde cero. Para desarrolladores de software a medida y equipos de ingeniería que trabajan en despliegues de inteligencia artificial, esta aproximación reduce la barrera de entrada a técnicas de generación paralela, hasta ahora reservadas a modelos entrenados específicamente con ese objetivo. La madurez de herramientas como TiDAR y la disponibilidad de checkpoints pre-entrenados permiten a cualquier equipo experimentar con estas arquitecturas sin invertir cantidades ingentes de recursos

Desde el punto de vista de la ciberseguridad y la fiabilidad, tener un modelo que comparte caché y reduce la latencia de inferencia también mitiga ciertos vectores de ataque basados en tiempos de respuesta, al homogenizar los tiempos de generación. Aunque la seguridad no es el foco principal de esta publicación, es un beneficio colateral que conviene tener en cuenta al diseñar sistemas que manejan datos sensibles. En definitiva, ZAYA1-8B-Diffusion-Preview no es solo un logro técnico, sino una señal clara de hacia dónde se dirige la industria: hacia modelos más rápidos, más eficientes y más fáciles de integrar en flujos empresariales reales.

Compartir

Comentarios