Introducción: en una semana construimos gemini-imagen, una biblioteca CLI y Python para la generación de imágenes con Google Gemini, y lo hicimos junto a Claude Code, un asistente de programación basado en IA. No se trató de sustituir desarrolladores sino de amplificar productividad y calidad. Aquí cuento cómo avanzamos día a día y qué resultados obtuvimos.

Día 1: de cero a una biblioteca básica. Empecé con la idea de mejorar la experiencia de desarrollo para la API de generación de imágenes de Google. En pocas horas definimos estructura de proyecto con pyproject.toml, una clase GeminiImageGenerator, modelos tipados con Pydantic v2 y una suite de tests inicial con pytest. También configuramos CI/CD desde el primer push: workflows de GitHub Actions para linting, tests y build, hooks con ruff y mypy, Dependabot y reporting con codecov. Adoptamos herramientas modernas como uv como gestor de paquetes, ruff para linting y formato y un Makefile para tareas comunes.

Días 2 y 3: funciones del mundo real. Añadimos integración con S3 para almacenar imágenes generadas, con soporte asíncrono y subida/descarga paralela mediante asyncio.gather. Implementamos utils s3 con aiobotocore, detección de URIs s3://, generación de URLs públicas y tests con clientes S3 mockeados. Claude Code también gestionó conflictos de dependencias y propuso la mejor alternativa técnica. Creamos benchmarks que mostraron mejoras de rendimiento de hasta 5 veces y documentación que explica la ganancia.

Días 4 y 5: seguridad y observabilidad. Profundizamos en los filtros de seguridad de Google Gemini, diseñamos una API type safe de SafetySetting con presets strict, default, relaxed y none, y escribimos tests de integración. Para observabilidad añadimos trazas y logging con LangSmith, registrando URLs de imagen, metadatos, información del filtro de seguridad y etiquetas personalizadas, además de ejemplos de uso.

Días 6 y 7: explosión del CLI. Construimos una CLI robusta con Click que incluye comandos imagen generate, imagen analyze, imagen edit, imagen upload/download, imagen config, imagen keys, imagen models e imagen template. Implementamos un sistema avanzado de plantillas con sustitución de variables, archivos de configuración JSON, precedencia de overrides, opciones --dump-job y --dry-run, y una función para exportar trazas de LangSmith a plantillas reutilizables. Añadimos 203 tests nuevos que cubren sustitución de variables, utilidades de deep merge, almacenamiento de plantillas, comandos CLI y escenarios de seguridad. También se generó un script demo exhaustivo y documentación organizada.

Métricas y entrega: 88 commits en 5 días, más de 10 000 líneas entre biblioteca, CLI, tests y docs, cobertura de tests superior a 95% y publicación en PyPI instalable con pip install gemini-imagen. Funcionalidades clave: librería Python con soporte async, CLI completo, integración S3, trazado con LangSmith, control de seguridad, sistema de plantillas, gestión de configuración y control de aspecto y múltiples entradas y salidas.

Cómo colaboramos: mi rol fue visión, decisiones estratégicas, requisitos y validación. El rol de Claude Code fue implementación, mejores prácticas, pruebas, documentación y resolución de problemas. El flujo típico fue pedir una función, revisar el diseño propuesto, permitir la implementación y validar con tests. El asistente fue proactivo pero no autónomo: siempre explicaba lo que hacía y por qué.

Lo que más me sorprendió: pensamiento arquitectónico del asistente, disciplina en documentación y pruebas, conocimiento de herramientas modernas y rapidez iterativa. Limitaciones detectadas: ocasionales hallucinations en sugerencias de API, límites de contexto con archivos grandes y tendencia a proponer soluciones sobredimensionadas. La solución fue verificar siempre con documentación oficial, dividir el trabajo en tareas pequeñas y aplicar juicio humano para priorizar.

Lecciones para trabajar con asistentes de IA: comenzar con objetivos claros, iterar en pasos pequeños, verificar y testear el código, explicar las decisiones cuando discrepas y usar la IA para boilerplate mientras el equipo humano mantiene la decisión final. IA acelera la creación pero no reemplaza el juicio humano.

Sobre Q2BSTUDIO: en Q2BSTUDIO somos una empresa de desarrollo de software y aplicaciones a medida especializada en inteligencia artificial, ciberseguridad, servicios cloud aws y azure, servicios inteligencia de negocio y soluciones a medida para empresas. Ayudamos a convertir proyectos experimentales en productos robustos y escalables, combinando experiencia en desarrollo de software a medida con prácticas de seguridad y operaciones en la nube. Si buscas potenciar procesos con IA para empresas o crear agentes IA que automaticen tareas críticas, en Q2BSTUDIO contamos con la experiencia necesaria.

Si te interesa explorar cómo integrar IA en tus soluciones o necesitas desarrollar aplicaciones a medida visita nuestra página de aplicaciones a medida y para proyectos de IA empresarial consulta servicios de inteligencia artificial. También ofrecemos ciberseguridad y pentesting, servicios cloud AWS y Azure, servicios de inteligencia de negocio y Power BI, automatización de procesos y consultoría para desplegar agentes IA seguros y eficientes.

Conclusión: construir gemini-imagen con Claude Code demostró que la colaboración humano IA puede multiplicar la productividad y elevar la calidad, siempre que se combine visión humana, juicio y verificación con la capacidad de la IA para generar código, tests y documentación. En Q2BSTUDIO aplicamos estos principios para ofrecer software a medida, soluciones de inteligencia artificial y servicios en la nube que aceleran el valor de negocio.