robots.txt

크롤러가 사이트에 요청할 수 있는 페이지/파일과 요청할 수 없는 페이지/파일을 검색엔진 크롤러에 알려 주는 역할을 한다. Google로부터 웹페이지를 숨기기 위한 메커니즘이 아니다. 구글에 표시되지 않도록 하려면 noIndex 명령어 를 사용하거나 비밀번호로 페이지를 보호해야 한다.

robots.txt 만들기

기본적으로 robots.txt 파일은 사이트의 루트 경로에 위치한다.

ex) www.naver.com/robots.txt

robots.txt 파일은 하나 이상의 규칙으로 구성된 로봇 배제 규칙을 따르는 일반 텍스트 파일이다.

각 규칙은 크롤러가 웹사이트에 지정된 파일 경로에 액세스 하는 것을 차단하거나 허용한다.

# Group 1
User-agent: Googlebot
Disallow: /nogooglebot/

# Group 2
User-agent: *
Allow: /

Sitemap: <http://www.example.com/sitemap.xml>

[설명]

  1. 이름이 'Googlebot'인 사용자 에이전트 크롤러는 http://example.com/nogooglebot/ 폴더와 모든 하위 디렉터리를 크롤링하면 안 됩니다.
  2. 다른 모든 사용자 에이전트는 전체 사이트에 액세스할 수 있습니다. 기본적으로 전체 액세스가 허용된다고 가정되기 때문에 이 부분을 생략해도 결과는 같습니다.
  3. 사이트의 사이트맵 파일http://www.example.com/sitemap.xml에 있습니다.

기본 가이드