De 5 segundos a 0.7 segundos: Cómo construí un agente de inteligencia artificial de voz listo para producción (y reduje la latencia en 7 veces)
De 5 segundos a 0.7 segundos: cómo construí un agente de inteligencia artificial de voz listo para producción y reduje la latencia en 7 veces
Resumen rápido para el desarrollador ocupado: construí un agente de voz listo para producción que pasó de más de 5 segundos de latencia a respuestas en menos de un segundo mediante 8 fases sistemáticas de optimización. No fue solo escribir código, sino entender dónde se esconden los cuellos de botella y cómo cambios sencillos tienen un impacto enorme.
Pila tecnológica usada: LiveKit Agents SDK para infraestructura WebRTC en tiempo real, OpenAI para STT y LLM, ElevenLabs para Text to Speech y Python 3.11 como lenguaje de implementación. Los resultados más relevantes: 7x más rápido total, reducción de 5.5s a 0.7s en el mejor caso, mejora de 3 a 8 veces en el LLM TTFT, 98% de mejora en transcripción en streaming, y reducción de 10x en costes al cambiar a modelos más económicos.
El reto fue claro: crear un agente de voz que no pareciera un robot. La referencia humana indica una latencia media de respuesta de 236 ms tras terminar el interlocutor, con una desviación estándar de alrededor de 520 ms. Mi objetivo fue acercarme a ese rango y, en casos óptimos, conseguí aproximadamente 0.7 segundos.
Decisión arquitectónica clave: enfoque pipeline frente a modelos speech to speech end-to-end. Elegí el pipeline STT then LLM then TTS por control fino, flexibilidad para intercambiar modelos y optimizar costes, y la posibilidad de inspeccionar salidas intermedias. Esto permite priorizar precisión STT en triage médico o razonamiento LLM en reservas de restaurante.
Fase 1, línea base: STT con whisper-1 en batch, LLM con GPT-4o, TTS con ElevenLabs, VAD con Silero e infraestructura LiveKit. Latencia total inicial: 3.9-5.5 s. El LLM era el cuello de botella principal, consumiendo hasta 85% del tiempo total en algunos casos.
Fase 2, el cambio obvio: sustituir GPT-4o por gpt-4o-mini. Resultado inmediato: TTFT del LLM pasó de 1.0-4.7 s a 0.36-0.59 s, tokens por segundo mejoraron 2-4x, latencia total cayó a 2.3-3.0 s y coste reducido 10x. A veces la mejora más simple es la más impactante.
Fase 3, STT en tiempo real: activé transcripción en streaming usando use_realtime y los resultados fueron espectaculares. Primer transcript con conexión: 1.5-2.0 s, pero transcripciones subsecuentes prácticamente instantáneas entre 0.026 y 0.07 s, lo que supuso una mejora del 98% para las transcripciones parciales y mejor manejo de interrupciones.
Fase 4, optimización de system prompt: reducir instrucciones verborreicas de 50-190 tokens a ~30 tokens redujo latencia y coste sin pérdida de calidad. Cada token cuenta tanto para precio como para tiempo de procesamiento.
Fase 5, modelo STT optimizado: migré de whisper-1 a gpt-4o-mini-transcribe con language explícito para eliminar sobrecoste de detección automática. Eso mejoró el primer transcript en un 37% y mantuvo transcripciones subsecuentes en rango near-instant.
Fases 6 y 7, gestión de contexto: implementé pruning y resumen automático con ventana deslizante para evitar crecimiento descontrolado de tokens. Política: mantener mensajes recientes, resumir mensajes intermedios y eliminar mensajes muy antiguos. El resumen se ejecuta asíncronamente para no afectar latencia.
Fase 8, integración MCP y operaciones de documentos: añadí un heartbeat cada 5 s, ejecuciones asíncronas para llamadas bloqueantes y manejo de timeouts para evitar que LiveKit cierre procesos largos. Ahora el agente puede leer, editar y analizar documentos por voz sin caer por timeouts.
Cómo quedó la performance: tras optimizaciones, latencia total típica 0.9-1.2 s, LLM TTFT promedio 0.699 s, TTS TTFB promedio 0.327 s y STT subsecuente casi inmediato. En el mejor caso se alcanzó ~0.7 s total, cumpliendo objetivos de experiencia natural.
Lecciones clave: optimización iterativa, medir antes de cambiar, cambios sencillos a menudo producen mayor impacto, streaming en cada etapa es imprescindible, la gestión de contexto es requisito de producción y la selección de modelo define tradeoffs entre latencia, calidad y coste. Métricas críticas incluyeron TTFT para LLM y TTFB para TTS.
Sobre Q2BSTUDIO: en Q2BSTUDIO somos una empresa de desarrollo de software y aplicaciones a medida especializada en soluciones de inteligencia artificial, ciberseguridad y servicios cloud. Diseñamos software a medida para empresas que buscan transformar procesos mediante agentes IA y sistemas conversacionales. Si buscas crear una solución de voz integrada o una plataforma con capacidades avanzadas de IA para empresas puedes ver nuestras propuestas en servicios de inteligencia artificial para empresas y soluciones de aplicaciones a medida y software a medida.
Servicios complementarios y posicionamiento: ofrecemos servicios cloud aws y azure, servicios de inteligencia de negocio y power bi para reporting avanzado, además de auditorías de ciberseguridad y pentesting para proteger sistemas conversacionales. Integrar IA con buenas prácticas de seguridad y arquitecturas cloud es esencial para poner en producción agentes IA con garantías.
Qué sigue: mejorar detección de turnos y VAD, cachear respuestas frecuentes, soporte multilenguaje, self hosting para reducir latencias en entornos críticos, e integrar RAG y búsquedas semánticas para contexto relevante. También trabajaremos en paneles de monitorización en tiempo real, pruebas A B y más herramientas MCP para ampliar capacidades documentales.
Conclusión: pasar de 5 segundos a 0.7 segundos no fue magia sino una serie de optimizaciones sistemáticas, métricas claras y decisiones basadas en datos. Si quieres que Q2BSTUDIO te acompañe a diseñar un agente de voz o una plataforma conversacional que cumpla objetivos de latencia, coste y seguridad, estamos listos para ayudarte. Palabras clave relacionadas con este artículo: aplicaciones a medida, software a medida, inteligencia artificial, ciberseguridad, servicios cloud aws y azure, servicios inteligencia de negocio, ia para empresas, agentes IA y power bi.
Si tienes preguntas técnicas o quieres compartir tu experiencia optimizando agentes de voz, te invitamos a contactar con nuestro equipo en Q2BSTUDIO y seguir profundizando en cómo llevar tu proyecto a producción con garantías.
Comentarios