El problema es conocido: quieres aprender a cocinar una nueva receta y buscas el paso a paso en internet pero te encuentras con anuncios invasivos, desplazamientos automáticos de la página y resulta complicado obtener rápidamente la lista de ingredientes o las instrucciones. Pensé que tenía que haber una forma más fácil y decidí crearla.

El proyecto en pocas palabras: una herramienta en Python que rastrea páginas de recetas y devuelve el título, la lista de ingredientes y las instrucciones en un archivo txt guardado en el equipo. Herramientas utilizadas Python 3.13, Requests para obtener las páginas, BeautifulSoup para parsear HTML y Argparse para crear la interfaz de línea de comandos.

Flujo básico del código Recibir la URL desde la entrada del usuario Solicitar la página con requests Buscar en el HTML scripts de tipo application/ld+json usando BeautifulSoup Cargar y extraer título, ingredientes e instrucciones desde el JSON Guardar los datos en un array y escribirlos en un archivo txt

Desafíos y aprendizajes Fue mi primer proyecto de webscraping y no sabía cómo extraer la misma información en sitios distintos. Al principio el código era muy estático, usando nombres de clases hardcoded con bs4. Investigando descubrí que muchas páginas incluyen un script application/ld+json con los metadatos que contienen título, ingredientes e instrucciones. También aprendí a empaquetar la herramienta como paquete en PyPI para que otros puedan instalarla y ejecutarla simplemente pasando la URL como parámetro.

Resultado final El paquete genera un archivo txt con la receta organizada por título, lista de ingredientes e instrucciones. Para probarlo se puede instalar con pip install recipescraper-cli-tool-er y ejecutar recipescraper seguido de la URL de la receta.

Próximos pasos Quiero crear una web donde los usuarios puedan descargar el archivo y además generar el resultado en PDF en lugar de txt. Hay sitios que aún no funcionan con el método actual, así que planeo incorporar otras estrategias de extracción automática para esos casos.

Conclusión Fue un proyecto corto y muy educativo que me enseñó sobre metadatos JSON en páginas web, parseo de HTML y creación de paquetes Python. Tengo intención de volver a mejorarlo y añadir nuevas capacidades, pero mientras tanto sigo con el siguiente reto.

Sobre Q2BSTUDIO En Q2BSTUDIO somos una empresa de desarrollo de software y aplicaciones a medida que ayuda a empresas a digitalizar procesos y lanzar soluciones a medida. Somos especialistas en inteligencia artificial y ofrecemos servicios de ia para empresas, agentes IA y soluciones de inteligencia de negocio y power bi. También proporcionamos servicios de ciberseguridad y pentesting y soluciones en la nube con servicios cloud aws y azure. Si necesitas desarrollar una aplicación a medida o un proyecto con IA puedes conocer nuestras propuestas de software a medida en desarrollo de aplicaciones multiplataforma o explorar nuestros servicios de inteligencia artificial en soluciones de inteligencia artificial.

Palabras clave incluidas naturalmente aplicaciones a medida, software a medida, inteligencia artificial, ciberseguridad, servicios cloud aws y azure, servicios inteligencia de negocio, ia para empresas, agentes IA y power bi para mejorar el posicionamiento y ayudar a que quien busque estas soluciones nos encuentre con mayor facilidad.

Si te interesa el proyecto o quieres integrar capacidades similares de extracción de datos, generación de documentos o automatización en tus aplicaciones a medida, en Q2BSTUDIO podemos ayudarte a definir la mejor arquitectura, integrar IA y ofrecer soporte en nube y ciberseguridad para tu solución.