Cómo Agoda escaló su Feature Store 50X con ScyllaDB

En la era de la inteligencia artificial aplicada a la toma de decisiones en tiempo real, las infraestructuras de datos deben evolucionar a un ritmo vertiginoso. Un caso paradigmático es el de una de las mayores plataformas de viajes online, que experimentó un crecimiento explosivo de tráfico multiplicado por 50 en apenas dos años. Para mantener latencias por debajo de 10 milisegundos en el percentil 99, su equipo de ingeniería tuvo que rediseñar por completo su feature store, un repositorio centralizado de características para modelos de machine learning. Este artículo analiza las lecciones aprendidas en ese proceso y cómo empresas como Q2BSTUDIO pueden ayudar a afrontar desafíos similares mediante aplicaciones a medida y soluciones de infraestructura avanzadas.

El feature store en cuestión almacenaba millones de entidades por segundo, con una arquitectura que combinaba una base de datos principal ScyllaDB y un caché centralizado DragonflyDB. El problema surgió cuando un nuevo cliente con patrones de tráfico extremadamente irregulares comenzó a consumir el servicio. En momentos de pico, las solicitudes se multiplicaban por doce, saturando los discos SATA de uno de los centros de datos. La situación se agravaba con el fenómeno conocido como 'cache stampede': al no haber datos en caché, miles de peticiones idénticas llegaban simultáneamente a la base de datos, provocando tiempos de respuesta de segundos en lugar de milisegundos.

El diagnóstico inicial reveló una disparidad crítica: el centro de datos problemático utilizaba discos SATA, mientras que el otro ya contaba con NVMe. Las pruebas de laboratorio indicaban que el rendimiento de lectura podía multiplicarse por diez con el cambio de hardware. Sin embargo, la sustitución requería meses de espera. Mientras tanto, el equipo implementó varias optimizaciones: ajustaron la estrategia de compactación de ScyllaDB, reduciendo el número de SSTables por lectura, lo que mejoró el rendimiento en un 50%. Además, incrementaron el tamaño de los archivos de resumen (summary ratio) en 20 veces, logrando un aumento de capacidad de 5.000 a 20.000 entidades por segundo, un respiro temporal.

Tras la instalación de los discos NVMe, la capacidad saltó a 300.000 entidades por segundo, una mejora de 50 a 60 veces. El equipo también exploró otras optimizaciones, como reorganizar el modelo de datos (almacenar todas las características de una entidad en una sola fila, con una mejora del 35% de rendimiento) y rediseñar la partición. Estas lecciones demuestran que, antes de buscar soluciones complejas, a menudo el mayor impacto proviene de acertar con los fundamentos: hardware adecuado, métricas precisas de capacidad y un modelo de datos alineado con la carga de trabajo.

Para las empresas que enfrentan retos similares, contar con un socio tecnológico especializado es clave. En Q2BSTUDIO ofrecemos software a medida para sistemas de alto rendimiento, así como servicios de inteligencia artificial y ciberseguridad. Nuestros equipos integran soluciones de servicios cloud aws y azure, y desarrollan agentes IA que optimizan procesos de negocio. Además, implementamos dashboards con power bi para monitorizar métricas en tiempo real, y proporcionamos servicios inteligencia de negocio que convierten datos en decisiones estratégicas. La combinación de una arquitectura robusta y herramientas de ia para empresas permite escalar sin comprometer la latencia, como demuestra el caso de Agoda.

En resumen, el camino hacia un feature store que soporte 50 veces más tráfico no requiere magia, sino un enfoque metódico: medir, ajustar, cambiar hardware y optimizar modelos de datos. Las organizaciones que deseen replicar este éxito deben considerar tanto la infraestructura como el software a medida que se adapte a sus necesidades específicas. En Q2BSTUDIO, estamos preparados para acompañar ese viaje.

Compartir

Comentarios