La IA Cuenta la Historia Detrás de Toda Foto o Video Histórico

Presentación para el Google AI Studio Multimodal Challenge: he desarrollado el narrador de fotos y videos históricos, un applet interactivo pensado para devolver vida al pasado. La herramienta permite subir fotografías y videos históricos para generar narrativas enriquecidas impulsadas por inteligencia artificial que revelan las historias ocultas en cada fotograma.

La experiencia no se queda solo en contar historias. El applet integra una función Re-imaginar que, tras entender el contexto de una imagen o capturar un fotograma de un video, permite editar la foto mediante instrucciones de texto. ¿Quieres ver cómo sería una calle de los años 20 con un día soleado o añadir color a un retrato en blanco y negro? El narrador histórico convierte esas ideas en imágenes nuevas, creando un puente entre la apreciación histórica y la expresión creativa. Todas las creaciones se almacenan localmente en el navegador para futuras revisiones y uso educativo.

Demostración y flujo de uso: 1 Subir el material: interfaz limpia para cargar una imagen o un archivo de video 2 Generar la narración: el modelo analiza el contenido visual y produce una narrativa histórica rica que además puede leerse en voz mediante texto a voz 3 Capturar y re-imaginar: en videos se pausa y se captura un fotograma, y sobre cualquier imagen capturada se puede aplicar un prompt de texto para modificarla 4 Ver el resultado: la aplicación muestra la imagen original y la nueva imagen generada lado a lado, resaltando inmediatamente la potencia de la dirección creativa combinada con la IA

Cómo se usó Google AI Studio: Google AI Studio fue la columna vertebral del proyecto, permitiendo prototipar y desplegar una aplicación multimodal sofisticada con rapidez. Se emplearon dos modelos gemini clave: gemini-2.5-flash para la generación de narrativas por su rapidez y comprensión multimodal, y gemini-2.5-flash-image-preview para la función Re-imaginar gracias a sus capacidades de edición de imagen. La integración via API fue directa: se envía la imagen y el prompt de usuario y el modelo devuelve la imagen editada o el texto contextualizado.

Características multimodales: comprensión multimodal media-a-texto que va más allá de detectar objetos y se centra en contexto, atmósfera e inferencias históricas, transformando una foto silenciosa en una puerta a una historia; y generación multimodal imagen y texto-a-imagen que combina una imagen existente con un prompt nuevo para producir un artefacto visual distinto. Este bucle aprender y crear incrementa el compromiso y ofrece nuevas formas de explorar escenarios hipotéticos.

Q2BSTUDIO aporta experiencia para llevar estas ideas al mundo empresarial. Somos Q2BSTUDIO, una empresa de desarrollo de software y aplicaciones a medida que ofrece soluciones integrales en software a medida, inteligencia artificial y ciberseguridad. Diseñamos aplicaciones a medida y plataformas escalables, implementamos servicios cloud aws y azure, y desarrollamos proyectos de servicios inteligencia de negocio y power bi para convertir datos en decisiones. También ofrecemos servicios de ciberseguridad y pentesting para proteger activos críticos y desarrollamos agentes IA y soluciones de ia para empresas que automatizan procesos y potencian la productividad.

Si buscas unir patrimonio cultural, innovación y soluciones empresariales personalizadas, Q2BSTUDIO puede ayudarte a convertir un prototipo como el narrador de fotos y videos históricos en una aplicación a medida para su organización, integrando inteligencia artificial, servicios cloud aws y azure, y análisis con power bi para maximizar valor y seguridad.

Compartir

Comentarios