Web Scraping con n8n | Parte 1: Construye Tu Primer Scraper Web

En este artículo aprenderás a construir un scraper web sencillo y visual usando n8n junto con la API de Zyte para extraer datos estructurados desde https://books.toscrape.com/. Si alguna vez quisiste automatizar scraping sin montar multitud de scripts, proxies o lógica de navegador, esto es para ti. Al final tendrás un workflow que corre por sí mismo y entrega JSON o CSV limpio con nombre de libro, precio, valoración e imagen, y una base fácil de adaptar a otros sitios públicos de estructura similar.

Preparación previa: instala n8n localmente o usa la versión en la nube. La experiencia es la misma si ejecutas n8n Desktop, n8n Cloud o una instancia local vía Docker o npm.

Paso 1 Crear workflow Crea un nuevo flujo en n8n y ponle un nombre descriptivo como Book Catalog Scraper. Ese lienzo contendrá todos los nodos.

Paso 2 Llamar a la API de Zyte Añade un nodo HTTP Request e importa un comando cURL para la API de Zyte. Asegúrate de usar tu clave de API y de solicitar browserHtml como booleano para que Zyte renderice el HTML completo. Nota práctica sobre n8n: al importar por cURL algunos valores booleanos se convierten en cadena. Usa la opción Add Expression y establece el campo browserHtml como un valor booleano real para evitar problemas.

Paso 3 Extraer el HTML Usa un nodo Edit Fields para aislar el campo browserHtml y guardarlo en data. Así tendrás solo el HTML limpio para el siguiente paso.

Paso 4 Parsear los elementos de libro Añade el nodo Extract HTML Content y selecciona data como fuente. Usa el selector CSS article.product_pod y devuelve un array de bloques HTML por libro. Verás un campo books con cada producto listo para procesar individualmente.

Paso 5 Separar en items Añade un nodo Split Out indicando el campo books. Con esto cada libro será un item independiente en el flujo y podrás tratarlos, filtrar o enriquecer uno a uno. Es opcional si solo quieres una exportación rápida, pero recomendable para escalado.

Paso 6 Extraer detalles del producto Usa otro Extract HTML Content para obtener campos concretos por libro. Ejemplos de selectores útiles: h3 a para nombre y enlace, .price_color para precio, .instock.availability para disponibilidad, p.star-rating para valoración, y .image_container img para la imagen. Configura retorno de texto o atributos según corresponda.

Paso 7 Limpiar y normalizar Añade un nodo de tipo Code para normalizar rutas relativas a URLs absolutas usando la base https://books.toscrape.com/, limpiar espacios en disponibilidad y convertir la clase de rating a un valor legible. También puedes eliminar caracteres innecesarios o transformar precios a números según tu necesidad. Este paso es flexible y se adapta al formato de salida que prefieras.

Paso 8 Exportar Finalmente usa Convert to File para transformar los items en un archivo descargable, por ejemplo CSV o JSON. Ejecuta el nodo y obtendrás el binario con el fichero listo para descargar.

Resumen rápido: con n8n y Zyte puedes montar un pipeline visual completo para scraping que cubre fetch, renderizado, parseo HTML, normalización y exportación sin escribir infra a mano. Para escalar hacia múltiples páginas añade lógica de paginación y control de iteraciones en el flujo. En próximas entregas se puede ver cómo automatizar la paginación y almacenar resultados en bases de datos o servicios en la nube.

Sobre Q2BSTUDIO: somos una empresa de desarrollo de software y aplicaciones a medida, especializados en soluciones a medida que integran inteligencia artificial, ciberseguridad y servicios cloud. Si buscas transformar procesos mediante automatización y workflows similares a este, podemos ayudarte con arquitectura, desarrollo e integración. Con experiencia en desarrollo de aplicaciones multiplataforma ofrecemos servicios de software a medida que se adaptan a tus objetivos de negocio.

Ofrecemos soluciones avanzadas de inteligencia artificial y agentes IA para empresas; si te interesa explorar cómo incorporar modelos de IA en tus procesos consulta nuestra página de Inteligencia artificial. También acompañamos proyectos de automatización de procesos y orquestación con n8n o alternativas, visita nuestra sección de automatización de procesos para más detalles.

Además trabajamos con servicios cloud aws y azure, servicios inteligencia de negocio y Power BI para convertir datos en decisiones accionables, siempre cuidando aspectos críticos como la ciberseguridad y el pentesting para proteger tus activos. Palabras clave que dominamos: aplicaciones a medida, software a medida, inteligencia artificial, ciberseguridad, servicios cloud aws y azure, servicios inteligencia de negocio, ia para empresas, agentes IA y power bi.

Si te interesa un proyecto a medida de scraping, integración o automatización, contacta con Q2BSTUDIO y diseñamos la solución que necesitas, desde la idea hasta la puesta en producción con seguridad y escalabilidad.

En el siguiente artículo ampliaremos este flujo para recorrer múltiples páginas y almacenar resultados en bases de datos o en un almacén en la nube. Gracias por leer y manos a la obra con tu primer scraper visual.

Compartir

Comentarios

También te puede interesar

Top 30 Expertos en programación de aplicaciones en Montijo

Las 10 mejores empresas para programación de aplicaciones en Cádiz

Mejores 5 empresas para programación de aplicaciones en Cádiz

Top 30 Expertos en desarrollo de software saas en Villanueva de la Serena

Mejores 5 empresas para programación de aplicaciones en Cádiz

Socio oficial de aplicaciones personalizadas en Barakaldo - Más de 15 años de experiencia