robot.txt | Notion

Los archivos robots.txt exiten como una forma de administrar una página web.proporciona información a los rastreadores de los buscadores sobre las páginas o los archivos que pueden solicitar o no de tu sitio web.Principalmente, se utiliza para evitar que tu sitio web se sobrecargue con solicitudes.En el contexto de webscraping, le dice al scraper que puede y no extraer. Es decir hasta donde puede llegar. Ya que infrigir en la violaciónde estas directivas puede acarrear un problema legal con el sitio web al que estamos scrapeando.

Robots.txtContiene entre otros elementos:

USER-AGENT: Identificadores de quienes acceden a tu sitio web, puede ser un archivo.py hasta un googlebot.

DIRECTIVAS:

ALLOW: Utiliza esta directiva para permitir a los motores de búsqueda rastrear un subdirectorio o una página, incluso en un directorio que de otro modo no estaría permitido
DISALLOW: Utiliza esta directiva para indicar a los motores de búsqueda que no accedan a archivos y páginas que se encuentren bajo una ruta específica

Lo encontramos en la URL de las páginas:

Untitled

Y devuelve lo siguiente:

Untitled

Un gran ejemplo de Scrappers que tienen que respetar estos archivos, son los navegadores como Google. Por ejemplo no pueden mostrar directamente un contenido de un curso si no te logueaste.

Para conocer más información de robots.txt:

Robots.txt y SEO: todo lo que necesitas saber