Cómo construí un agente de memoria de video utilizando AWS Bedrock y OpenSearch
Buscar dentro de plataformas OTT suele ser frustrante porque la búsqueda basada en metadatos funciona con títulos pero no con momentos específicos, por ejemplo describir una escena o preguntar cuando llora el protagonista. En Q2BSTUDIO desarrollamos una solución que va más allá de los metadatos: un agente que realmente observa la película, analiza fotogramas y transcripciones y construye una memoria semántica para responder con precisión a preguntas sobre momentos concretos.
Arquitectura general y servicios AWS utilizados: S3 para almacenar vídeos y fotogramas, AWS Transcribe para generar subtítulos, Amazon Bedrock con modelos Titan y Nova para análisis y embeddings, OpenSearch para la memoria vectorial, Lambda para funciones de razonamiento y orquestación, y herramientas ligeras para la interfaz como Streamlit. Esta combinación permite crear una capa de ingestión, una capa de memoria, una capa de razonamiento y una capa de interfaz que trabajan de forma integrada.
Capa de ingestión: subimos el fichero de vídeo a S3, ejecutamos un job de Transcribe para obtener un archivo SRT y a continuación procesamos el vídeo por minutos. Para cada minuto muestreamos varios fotogramas, cogemos los subtítulos que cubren ese intervalo y enviamos el conjunto a Bedrock Nova Premier para obtener un análisis estructurado por escena. El resultado se guarda como documentos JSON en S3 con metadatos de tiempo, resumen de escena, personajes, emociones, etiquetas visuales y eventos importantes.
Capa de memoria: una vez generados los JSON por minuto, construimos textos resumen concatenando campos relevantes y pedimos a Titan embeddings que convierta ese texto en vectores. Esos vectores se indexan en OpenSearch usando mapeos con knn_vector para poder realizar búsquedas semánticas. De este modo la memoria del vídeo es buscable por similitud semántica, no por palabras clave estrictas.
Capa de razonamiento: cuando un usuario realiza una pregunta el agente convierte la consulta a un embedding con Titan v2 y consulta OpenSearch para recuperar las escenas más relevantes. Los resultados se reordenan por marca temporal para reconstruir la narrativa y evitar que la IA saque conclusiones inversas al orden cronológico. Una función Lambda actúa como adaptador entre Bedrock Agent y OpenSearch, formatea los resultados y devuelve un contexto claro con marcas temporales para que el modelo final genere la respuesta citando las escenas encontradas.
Creación del agente y orquestación: en Bedrock creamos un agente con instrucciones precisas para usar la herramienta search_video_memory cada vez que el usuario pregunte sobre el contenido. Definimos un grupo de acciones que llama a la API implementada por Lambda mediante un esquema OpenAPI sencillo. El agente recibe la consulta, ejecuta la búsqueda semántica y responde usando exclusivamente la memoria recuperada, indicando los tiempos como fuentes.
Interfaz de usuario: para prototipos usamos Streamlit y la API de Bedrock Agent Runtime. La interfaz mantiene el historial de chat, envía la consulta y muestra la respuesta en streaming. Esta capa permite iterar rápidamente y mejorar la UX sin complicar la arquitectura backend.
Beneficios y casos de uso: la solución permite búsquedas por escenas, extracción automática de metadatos emocionales, generación de clips relevantes para editores, subtitulado avanzado, análisis de personajes y escenas para curación de contenido. Es aplicable a plataformas de vídeo, analítica de contenidos, compliance y búsqueda avanzada dentro de catálogos OTT.
Sobre Q2BSTUDIO: somos una empresa de desarrollo de software y aplicaciones a medida especializada en inteligencia artificial, ciberseguridad, servicios cloud aws y azure y soluciones de inteligencia de negocio. Ofrecemos servicios de software a medida y aplicaciones a medida para empresas que quieren integrar agentes IA, pipelines de datos y visualizaciones con herramientas como power bi. Si te interesa explorar cómo integrar IA para empresas o construir agentes de memoria de vídeo, consulta nuestra oferta de inteligencia artificial en Q2BSTUDIO Inteligencia Artificial y nuestros servicios cloud en Servicios cloud AWS y Azure.
Palabras clave y posicionamiento: aplicaciones a medida, software a medida, inteligencia artificial, ciberseguridad, servicios cloud aws y azure, servicios inteligencia de negocio, ia para empresas, agentes IA, power bi. Estas capacidades combinadas permiten a Q2BSTUDIO entregar soluciones integrales desde la ingestión de vídeo hasta el agente conversacional inteligente y la visualización de insights en dashboards.
Si quieres que diseñemos un piloto, optimicemos tu flujo de ingestión o adaptemos esta arquitectura a tus requisitos de seguridad y escalabilidad, contacta con Q2BSTUDIO para una consultoría personalizada en desarrollo de software y soluciones IA empresariales.
Comentarios