Aprende las bases de la extracción de datos en Internet y descubre cómo funciona una aplicación de Web Scraping internamente. Desarrolla scripts a través de herramientas como Python y las DevTools del navegador y consigue tu siguiente trabajo en cualquier empresa de tecnología.

<aside> 💡 Recursos:

</aside>



Introducción al web scraping

El contenido de este documento son apuntes prácticos del Curso de Fundamentos de Web Scraping con Python y Xpath y busca ser una guía para futuros trabajos personales. El mismo está dictado por Facundo García Martoni, Technical Mentor en Platzi. El curso es de Platzi.

Con el curso se trata de aprende las bases de la extracción de datos en Internet y decubrir cómo funciona una aplicación de Web Scraping internamente. Se desarrollan scripts a través de herramientas como Python y las DevTools del navegador.

1 - ¿Qué es el web scraping?

Web scraping: Es una técnica usada por data scientist y backend developers para extraer información de internet, accede a esto usando el protocolo de transferencias de hipertexto (HTTP) o a través de un navegador. Los datos extraídos usualmente son guardados en una BD, incluso en una hoja de cálculo para posteriores análisis. Puede hacerse de manera automática (bot) o manualmente.

Xpath: es un lenguaje que sirve para apuntar a las partes de un documento XML. Xpath modela un documento XML como un árbol de nodos. Existen diferentes tipos de nodos: elementos, atributos, texto.

2 - ¿Por qué aprender web scraping hoy?

El web scraping lo utilizan agencias de seguridad, empresas de comercio electrónico, marketing digital y reclutadores.

Las agencias de seguridad, aplicaciones que comparan precios más baratos entre hoteles, aplicaciones de e-commerce que comparan precios entre diferentes competidores usan web scraping. Las agencias de marketing para analizar el contenido de tweets que se vuelven virales. En general el web scraping es una habilidad muy valiosa para cuando no tienes acceso a una API.

Es posible realizar web scraping con diferentes lenguajes de programación, como R o Js (y sus respectivas librerías) sin embargo Py es por excelencia el lenguaje de programación para esta tarea. Cuenta con la comunidad más grande para implementarlo.

<aside> 💡 Info: Este tipo de trabajo es muy demandado https://www.workana.com/es https://www.upwork.com/

</aside>