Los archivos robots.txt exiten como una forma de administrar una página web.proporciona información a los rastreadores de los buscadores sobre las páginas o los archivos que pueden solicitar o no de tu sitio web.Principalmente, se utiliza para evitar que tu sitio web se sobrecargue con solicitudes.En el contexto de webscraping, le dice al scraper que puede y no extraer. Es decir hasta donde puede llegar. Ya que infrigir en la violaciónde estas directivas puede acarrear un problema legal con el sitio web al que estamos scrapeando.


Robots.txtContiene entre otros elementos:

USER-AGENT: Identificadores de quienes acceden a tu sitio web, puede ser un archivo.py hasta un googlebot.

DIRECTIVAS:


Lo encontramos en la URL de las páginas:

Untitled

Y devuelve lo siguiente:

Untitled


Un gran ejemplo de Scrappers que tienen que respetar estos archivos, son los navegadores como Google. Por ejemplo no pueden mostrar directamente un contenido de un curso si no te logueaste.


Para conocer más información de robots.txt:

Robots.txt y SEO: todo lo que necesitas saber