robots와 sitemap

robot rule에 대해서 알아보자.
- 개념 정리
- robot.txt 작성법
- 내 프로젝트에는 robot rule이 적용되어 있는지 확인 해보기
  - HTML meta tag
  - robot.txt
sitemap에 대해서 알아보자
- 개념
- sitemap작성법

robots.txt

크롤러가 사이트에 요청할 수 있는 페이지/파일과 요청할 수 없는 페이지/파일을 검색엔진 크롤러에 알려 주는 역할을 한다. Google로부터 웹페이지를 숨기기 위한 메커니즘이 아니다. 구글에 표시되지 않도록 하려면 noIndex 명령어 를 사용하거나 비밀번호로 페이지를 보호해야 한다.

robots.txt 만들기

기본적으로 robots.txt 파일은 사이트의 루트 경로에 위치한다.

ex) www.naver.com/robots.txt

robots.txt 파일은 하나 이상의 규칙으로 구성된 로봇 배제 규칙을 따르는 일반 텍스트 파일이다.

각 규칙은 크롤러가 웹사이트에 지정된 파일 경로에 액세스 하는 것을 차단하거나 허용한다.

# Group 1
User-agent: Googlebot
Disallow: /nogooglebot/

# Group 2
User-agent: *
Allow: /

Sitemap: <http://www.example.com/sitemap.xml>

[설명]

이름이 'Googlebot'인 사용자 에이전트 크롤러는 http://example.com/nogooglebot/ 폴더와 모든 하위 디렉터리를 크롤링하면 안 됩니다.
다른 모든 사용자 에이전트는 전체 사이트에 액세스할 수 있습니다. 기본적으로 전체 액세스가 허용된다고 가정되기 때문에 이 부분을 생략해도 결과는 같습니다.
사이트의 사이트맵 파일은 http://www.example.com/sitemap.xml에 있습니다.

기본 가이드

파일 이름은 반드시 robots.txt 이어야 한다.
사이트에는 robots.txt 파일이 하나만 있어야 한다.