Web Scraping con n8n | Parte 1: Construye Tu Primer Scraper Web

En este artículo aprenderás a construir un scraper web sencillo y visual usando n8n junto con la API de Zyte para extraer datos estructurados desde https://books.toscrape.com/. Si alguna vez quisiste automatizar scraping sin montar multitud de scripts, proxies o lógica de navegador, esto es para ti. Al final tendrás un workflow que corre por sí mismo y entrega JSON o CSV limpio con nombre de libro, precio, valoración e imagen, y una base fácil de adaptar a otros sitios públicos de estructura similar.
Preparación previa: instala n8n localmente o usa la versión en la nube. La experiencia es la misma si ejecutas n8n Desktop, n8n Cloud o una instancia local vía Docker o npm.
Paso 1 Crear workflow Crea un nuevo flujo en n8n y ponle un nombre descriptivo como Book Catalog Scraper. Ese lienzo contendrá todos los nodos.
Paso 2 Llamar a la API de Zyte Añade un nodo HTTP Request e importa un comando cURL para la API de Zyte. Asegúrate de usar tu clave de API y de solicitar browserHtml como booleano para que Zyte renderice el HTML completo. Nota práctica sobre n8n: al importar por cURL algunos valores booleanos se convierten en cadena. Usa la opción Add Expression y establece el campo browserHtml como un valor booleano real para evitar problemas.
Paso 3 Extraer el HTML Usa un nodo Edit Fields para aislar el campo browserHtml y guardarlo en data. Así tendrás solo el HTML limpio para el siguiente paso.
Paso 4 Parsear los elementos de libro Añade el nodo Extract HTML Content y selecciona data como fuente. Usa el selector CSS article.product_pod y devuelve un array de bloques HTML por libro. Verás un campo books con cada producto listo para procesar individualmente.
Paso 5 Separar en items Añade un nodo Split Out indicando el campo books. Con esto cada libro será un item independiente en el flujo y podrás tratarlos, filtrar o enriquecer uno a uno. Es opcional si solo quieres una exportación rápida, pero recomendable para escalado.
Paso 6 Extraer detalles del producto Usa otro Extract HTML Content para obtener campos concretos por libro. Ejemplos de selectores útiles: h3 a para nombre y enlace, .price_color para precio, .instock.availability para disponibilidad, p.star-rating para valoración, y .image_container img para la imagen. Configura retorno de texto o atributos según corresponda.
Paso 7 Limpiar y normalizar Añade un nodo de tipo Code para normalizar rutas relativas a URLs absolutas usando la base https://books.toscrape.com/, limpiar espacios en disponibilidad y convertir la clase de rating a un valor legible. También puedes eliminar caracteres innecesarios o transformar precios a números según tu necesidad. Este paso es flexible y se adapta al formato de salida que prefieras.
Paso 8 Exportar Finalmente usa Convert to File para transformar los items en un archivo descargable, por ejemplo CSV o JSON. Ejecuta el nodo y obtendrás el binario con el fichero listo para descargar.
Resumen rápido: con n8n y Zyte puedes montar un pipeline visual completo para scraping que cubre fetch, renderizado, parseo HTML, normalización y exportación sin escribir infra a mano. Para escalar hacia múltiples páginas añade lógica de paginación y control de iteraciones en el flujo. En próximas entregas se puede ver cómo automatizar la paginación y almacenar resultados en bases de datos o servicios en la nube.
Sobre Q2BSTUDIO: somos una empresa de desarrollo de software y aplicaciones a medida, especializados en soluciones a medida que integran inteligencia artificial, ciberseguridad y servicios cloud. Si buscas transformar procesos mediante automatización y workflows similares a este, podemos ayudarte con arquitectura, desarrollo e integración. Con experiencia en desarrollo de aplicaciones multiplataforma ofrecemos servicios de software a medida que se adaptan a tus objetivos de negocio.
Ofrecemos soluciones avanzadas de inteligencia artificial y agentes IA para empresas; si te interesa explorar cómo incorporar modelos de IA en tus procesos consulta nuestra página de Inteligencia artificial. También acompañamos proyectos de automatización de procesos y orquestación con n8n o alternativas, visita nuestra sección de automatización de procesos para más detalles.
Además trabajamos con servicios cloud aws y azure, servicios inteligencia de negocio y Power BI para convertir datos en decisiones accionables, siempre cuidando aspectos críticos como la ciberseguridad y el pentesting para proteger tus activos. Palabras clave que dominamos: aplicaciones a medida, software a medida, inteligencia artificial, ciberseguridad, servicios cloud aws y azure, servicios inteligencia de negocio, ia para empresas, agentes IA y power bi.
Si te interesa un proyecto a medida de scraping, integración o automatización, contacta con Q2BSTUDIO y diseñamos la solución que necesitas, desde la idea hasta la puesta en producción con seguridad y escalabilidad.
En el siguiente artículo ampliaremos este flujo para recorrer múltiples páginas y almacenar resultados en bases de datos o en un almacén en la nube. Gracias por leer y manos a la obra con tu primer scraper visual.
Comentarios