En el evento Tokyo CommunityBuilders Night #2 en colaboración con Jr.Champions presenté cómo implementar un chatbot de voz conversacional combinando Amazon Bedrock y Amazon Polly. Este artículo resume la sesión y recorre la arquitectura, ejemplos de implementación y consejos prácticos para llevarlo a producción.

Resumen rápido TL;DR Use Bedrock para generar guiones conversacionales y conviértelos en voces alternadas masculino y femenino con Polly. Controla la velocidad y las pausas con SSML para crear una experiencia natural de ida y vuelta. Repasamos las características de Polly, precios y consejos para producción, y se incluyen muestras de código y estructura de proyecto.

Por qué un Chatbot de Voz Conversacional Muchas veces la gente no quiere leer textos largos mientras hace otras tareas. Tras la pandemia ha aumentado la demanda de aprendizaje hands free durante el desplazamiento y actividades cotidianas. Un texto plano y monótono aburre; alternar voces y usar un formato dialogado mejora la atención, la memoria y la persuasión. Un narrador da detalles, otro resume o plantea preguntas; esto crea ritmo y convierte el contenido en algo parecido a un programa de radio.

Amazon Polly en pocas palabras Amazon Polly es un servicio TTS que convierte texto en voz realista. Con voces Neural ofrece audio de calidad periodística. Junto con SSML se puede afinar prosodia, ritmo y pausas para simular conversaciones naturales. En la región de Tokio hay voces estándar y Neural. Combinación recomendada para diálogo natural: Takumi voz masculina Neural y Kazuha voz femenina Neural.

Coste aproximado en Tokio Precio por carácter sintetizado. Estimación orientativa por 1M de caracteres: Standard alrededor de 600 JPY, Neural alrededor de 2400 JPY. Ejemplo práctico: 500 caracteres por sesión × 10 sesiones al día × 30 días = 150k caracteres al mes. Costes mensuales aproximados: solo Standard ~90 JPY, solo Neural ~360 JPY, mezcla ~225 JPY. Muy coste efectivo para uso en producción si se optimiza el caching y la duración de audio.

Consejos de producción SSML Use etiquetas break tras puntuación para un ritmo natural. Ralentiza la voz para términos técnicos mediante rate slow. Añade pausas estratégicas para simular que otro interlocutor responde. Implementa fallback: si falla la síntesis Neural, recurre a una voz Standard compatible. Cachea audios frecuentes en S3 para bajar costes y latencia. Protege los assets y APIs con CloudFront, OAC y cabeceras personalizadas para evitar acceso directo.

Arquitectura recomendada Usuario a CloudFront a API Gateway + Lambda. Lambda llama a Bedrock para generar el guion dialogado y formatea el texto en SSML separando por roles masculino y femenino. Lambda invoca Polly con Takumi y Kazuha para generar audio. Los audios pueden guardarse en S3 y servirse por CloudFront, con S3 protegido por OAC y validación de cabeceras entre CloudFront y API Gateway.

Ejemplo de implementación Estructura típica del proyecto: carpeta con CDK para desplegar CloudFront, API Gateway, Lambda y hosting de sitio en S3. Lambda en Python llama a Bedrock y Polly y realiza el preprocesado SSML. Una UI mínima sirve un formulario de entrada y fragmentos SSML de ejemplo para generar las voces alternadas y ofrecer reproducción y descarga.

Pautas operativas Variables de entorno importantes: BEDROCK_MODEL_ID y ORIGIN_TOKEN. Asegurar que Bedrock y Polly estén en la misma región. Configurar CORS y permitir POST y OPTIONS. Monitorizar el consumo de Polly por caracteres, Bedrock por tokens y el ancho de banda de CloudFront para optimizar costes. Migrar de OAI a OAC y añadir WAF para protección adicional contra bots.

Extensiones futuras Integrar RAG para diálogos especializados usando una knowledge base, añadir reglas SSML por diccionario de términos del dominio, cachear audios en S3 con expiración y considerar agentes IA que combinen voz y capacidades de búsqueda para asistentes conversacionales avanzados.

Sobre Q2BSTUDIO Q2BSTUDIO es una empresa de desarrollo de software y aplicaciones a medida especializada en inteligencia artificial, ciberseguridad y servicios cloud. Ofrecemos soluciones de software a medida y aplicaciones a medida diseñadas para integrar agentes IA, automatizaciones y analítica avanzada. Si buscas potenciar tu negocio con servicios cloud aws y azure o desplegar proyectos de IA para empresas, podemos ayudarte con arquitectura, implementación y operación. Con experiencia en ciberseguridad y pentesting garantizamos despliegues seguros y cumplimiento.

Servicios y palabras clave destacadas trabajadas en nuestros proyectos: aplicaciones a medida, software a medida, inteligencia artificial, ciberseguridad, servicios cloud aws y azure, servicios inteligencia de negocio, ia para empresas, agentes IA y power bi. Si tu objetivo es transformar datos en valor, consulta nuestras opciones de Business Intelligence y Power BI en servicios de inteligencia de negocio y Power BI y para soluciones de IA visita IA para empresas.

Conclusión Añadir personalidad a tu chatbot con Bedrock y Polly mejora notablemente la experiencia de usuario. Generar scripts conversacionales con Bedrock y sintetizarlos con voces Neural de Polly, controlando ritmo y pausas con SSML, permite crear narraciones dinámicas y fáciles de consumir. Si necesitas ayuda para diseñar e implementar una solución de voz conversacional, Q2BSTUDIO ofrece servicios integrales desde el desarrollo de software a medida hasta la implementación en la nube y la seguridad necesaria para producción.