크롤러가 사이트에 요청할 수 있는 페이지/파일과 요청할 수 없는 페이지/파일을 검색엔진 크롤러에 알려 주는 역할을 한다. Google로부터 웹페이지를 숨기기 위한 메커니즘이 아니다. 구글에 표시되지 않도록 하려면 noIndex 명령어 를 사용하거나 비밀번호로 페이지를 보호해야 한다.
기본적으로 robots.txt 파일은 사이트의 루트 경로에 위치한다.
robots.txt 파일은 하나 이상의 규칙으로 구성된 로봇 배제 규칙을 따르는 일반 텍스트 파일이다.
각 규칙은 크롤러가 웹사이트에 지정된 파일 경로에 액세스 하는 것을 차단하거나 허용한다.
# Group 1
User-agent: Googlebot
Disallow: /nogooglebot/
# Group 2
User-agent: *
Allow: /
Sitemap: <http://www.example.com/sitemap.xml>
[설명]
http://example.com/nogooglebot/
폴더와 모든 하위 디렉터리를 크롤링하면 안 됩니다.