Generando múltiples imágenes con NanoBanana y Firebase AI Logic en Angular
Generando múltiples imágenes con NanoBanana y Firebase AI Logic en Angular
Recientemente exploré las capacidades del modelo gemini-2.5-flash-image conocido como NanoBanana para generar y editar imágenes desde prompts. Inicialmente mi objetivo era crear imágenes individuales, pero en un nuevo proyecto necesitaba generar secuencias de imágenes que contaran una historia, tutorial, proceso o línea temporal. En este artículo explico el reto que encontré con candidateCount y la solución práctica que implementé en una demo de Angular y Firebase AI Logic.
El reto inicial y la limitación de candidateCount: intenté configurar GenerationConfig con candidateCount para devolver varias imágenes en una sola llamada. Sin embargo Firebase AI Logic devolvió un error indicando que este modelo no admite múltiples candidatos simultáneos. Al volver a candidateCount igual a 1 el modelo devolvía una sola imagen o, en ocasiones, una composición inesperada cuando el prompt buscaba múltiples viñetas. Quedó claro que era necesario otro enfoque para producir una serie coherente de imágenes secuenciales.
La solución: generar la historia visual paso a paso en el cliente. En lugar de forzar múltiples candidatos, diseñé un flujo client side que construye prompts por paso y llama al API tantas veces como imágenes se quieran generar. Esto permite controlar el contexto de cada imagen, añadir transiciones entre pasos y mantener un estilo consistente o en evolución según la preferencia del usuario.
Formulario y opciones para el usuario: en Angular creé un componente de formulario donde el usuario escribe el prompt y selecciona número de imágenes 2 4 6 u 8 tipo story process tutorial timeline estilo consistent evolving y transición smooth dramatic fade. Estas opciones permiten generar desde una tira cómica hasta un tutorial paso a paso o una infografía cronológica.
Lógica para prompts secuenciales: la pieza central es una función que construye stepPrompts ejecutando un bucle por cada imagen solicitada. Por cada paso se llama a un generador de prompt contextual que añade contexto como paso X de N, tipo de visualización y la transición desde el paso anterior. Por ejemplo buildStepPrompts crea el array de prompts y buildStoryPrompt compone cada prompt incluyendo tipo estilo transición y numeración, de modo que cada llamada al modelo recibe la instrucción precisa para generar la escena adecuada.
Generación y manejo de resultados: el componente de media pasa la lista de prompts al servicio que itera y llama a la API por cada prompt. Cada imagen se recibe en base64 y se muestra en el visor. Hay que considerar que puede haber éxitos parciales y que el número de imágenes devueltas puede ser menor que el solicitado por fallos puntuales, así que la interfaz informa al usuario y permite reintentar pasos fallidos.
Beneficios de este enfoque: mover la responsabilidad de crear la secuencia al cliente permite mayor control creativo y coherencia entre imágenes, adaptar transiciones y estilos, y evitar restricciones del modelo sobre candidateCount. Es ideal para historias visuales, tutoriales ilustrados, procesos paso a paso y líneas temporales educativas.
Sobre Q2BSTUDIO: en Q2BSTUDIO somos una empresa de desarrollo de software especializada en aplicaciones a medida y software a medida, con experiencia en inteligencia artificial y soluciones para empresas. Ofrecemos servicios de integración de modelos generativos, desarrollo de interfaces en Angular y backends escalables, además de consultoría en ciberseguridad y pentesting para proteger tus proyectos. Si necesitas soluciones de inteligencia artificial para tu negocio puedes conocer nuestros servicios en servicios de inteligencia artificial y si tu objetivo es crear aplicaciones a la medida de tu empresa visita nuestra página de desarrollo de aplicaciones y software a medida.
Palabras clave y servicios: integramos soluciones que incluyen servicios cloud aws y azure, servicios inteligencia de negocio y Power BI para visualización y análisis de datos, agentes IA y automatizaciones, así como estrategias de ciberseguridad para entornos productivos. Nuestras capacidades abarcan ia para empresas, agentes IA, power bi, servicios cloud aws y azure, y servicios de inteligencia de negocio para impulsar decisiones basadas en datos.
Conclusión: la técnica de construir prompts secuenciales y llamar al modelo por cada paso es una solución práctica y flexible para generar secuencias de imágenes con NanoBanana cuando el modelo no admite múltiples candidatos. Esta aproximación resulta especialmente útil para equipos que necesitan crear historias visuales, tutoriales o procesos paso a paso con control fino del estilo y las transiciones. Si quieres asesoramiento o desarrollar una solución a medida para tu proyecto visual o de IA, en Q2BSTUDIO podemos ayudarte a diseñarla e implementarla.
Comentarios