■ 로봇 배제표준 이란?
로봇 배제 표준은 웹 사이트에 로봇이 접근하는 것을 방지하기 위한 규약으로,
일반적으로 접근 제한에 대한 설명을 robots.txt에 기술한다.
이 규약은 1994년 6월에 처음 만들어졌고, 아직 이 규약에 대한 RFC는 없다.
이 규약은 권고안이며, 로봇이 robots.txt 파일을 읽고 접근을 중지하는 것을 목적으로 한다.
따라서, 접근 방지 설정을 하였다고 해도, 다른 사람들이 그 파일에 접근할 수 있다.
■ robots.txt 파일의 게재위치
▶ https://support.google.com/webmasters/answer/40361?hl=ko
robots.txt 파일은 도메인의 루트에 있어야 하며 이름은 ‘robots.txt’여야 합니다.
검색 로봇은 도메인의 루트에 있는 robots.txt 파일만 찾기 때문에 하위 디렉토리에 있는 파일은 유효하지 않습니다.
예를 들어 http://www.example.com/robots.txt는 유효한 위치이지만,
http://www.example.com/mysite/robots.txt는 유효하지 않습니다.
도메인 루트에 대한 액세스 권한이 없다면 Robots 메타 태그를 이용해서 액세스를 제한할 수 있습니다.
■ 검색로봇 종류
구글로봇 : Googlebot
구글 이미지 : googlebot-image
구글 모바일 : googlebot-mobile
야후로봇 : Slurp, yahoo-slurp
야후 이미지 : Yahoo-MMCrawler
야후 블로그 : yahoo-blog
MSN : MSNBot
MSN 이미지 : psbot
네이버 : cowbot, naverbot, yeti
다음 : daumos
◆ 로봇 파일 작성
로봇 파일 작성법 : http://www.robotstxt.org/robotstxt.html
로봇 파일 작성툴 : http://www.mcanerin.com/en/search-engine/robots-txt.asp
■ 예시
- googlebot에대해 /dboard/files/designboard_down.php 불허
다른것들은 모두허가.
User-Agent:googlebot
Disallow: /dboard/files/designboard_down.php
User-Agent:*
Allow:
- 모든로봇에서 /dboard/files/designboard_down.php만 불허
User-agent: *
Disallow:
Disallow: /dboard/files/designboard_down.php
- 모든 컨텐츠 검색엔진에 노출 허용
User-Agent:*
Allow: /
- 모든 컨텐츠 검색엔진에 노출 방지
User-Agent:*
Disallow:/
- 특정 검색엔진 크롤러(구글 크롤러:googlebot)만 접근 거부
User-Agent:googlebot
Disallow:/
User-Agent:*
Allow:
- 특정 디렉토리만 노출 방지
User-Agent:*
Disallow:/특정디렉토리명/
- 모든로봇 허가
User-agent: *
Allow: /
- 모든 로봇을 차단하려면:
User-agent: *
Disallow: /
- BadBot이라는 로봇에 private, tmp 디렉터리 접근을 차단하려면:
User-agent: BadBot
Disallow: /private/
Disallow: /tmp/
- 모든 로봇에대해 /cgi-bin/,/tmp/, /~joe/ 불허
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/
- 모든 로봇에대해 불허.
User-agent: *
Disallow: /
- 모든 로봇에대해 불허가 없으므로 허가한다.
User-agent: *
Disallow:
- 모든로봇에대해 /~joe/stuff/ 불허
User-agent: *
Disallow: /~joe/stuff/
- 모든로봇에대해 /~joe/junk.html,/~joe/foo.html,/~joe/bar.html 불허
User-agent: *
Disallow: /~joe/junk.html
Disallow: /~joe/foo.html
Disallow: /~joe/bar.html
- 크롤링 속도 설정
Crawl-delay: 1 (비설정:Normal, 1: slow, 5: very slow, 10: Extremely Slow)
■ meta태그를 이용한 방법
HTML의 meta 태그를 이용할 수도 있다.
<meta name="Robots" content="Noindex,Nofollow" />
하지만 이러한 방법은 일반적인 방법이 아니고, 아직까지는 일부의 로봇만이 지원한다.
■ 로봇상세정보 확인
http://www.robotstxt.org/db/all.txt
■ 참고
http://www.robotstxt.org/
http://ko.wikipedia.org/wiki/Robots.txt
https://support.google.com/webmasters/answer/40361?hl=ko
http://blog.naver.com/PostView.nhn?blogId=cw4508&logNo=140135910264
http://www.youtu.kr/695
https://developers.google.com/webmasters/control-crawl-index/docs/crawlers?hl=ko
http://j07051.tistory.com/578
로봇 배제 표준은 웹 사이트에 로봇이 접근하는 것을 방지하기 위한 규약으로,
일반적으로 접근 제한에 대한 설명을 robots.txt에 기술한다.
이 규약은 1994년 6월에 처음 만들어졌고, 아직 이 규약에 대한 RFC는 없다.
이 규약은 권고안이며, 로봇이 robots.txt 파일을 읽고 접근을 중지하는 것을 목적으로 한다.
따라서, 접근 방지 설정을 하였다고 해도, 다른 사람들이 그 파일에 접근할 수 있다.
■ robots.txt 파일의 게재위치
▶ https://support.google.com/webmasters/answer/40361?hl=ko
robots.txt 파일은 도메인의 루트에 있어야 하며 이름은 ‘robots.txt’여야 합니다.
검색 로봇은 도메인의 루트에 있는 robots.txt 파일만 찾기 때문에 하위 디렉토리에 있는 파일은 유효하지 않습니다.
예를 들어 http://www.example.com/robots.txt는 유효한 위치이지만,
http://www.example.com/mysite/robots.txt는 유효하지 않습니다.
도메인 루트에 대한 액세스 권한이 없다면 Robots 메타 태그를 이용해서 액세스를 제한할 수 있습니다.
■ 검색로봇 종류
구글로봇 : Googlebot
구글 이미지 : googlebot-image
구글 모바일 : googlebot-mobile
야후로봇 : Slurp, yahoo-slurp
야후 이미지 : Yahoo-MMCrawler
야후 블로그 : yahoo-blog
MSN : MSNBot
MSN 이미지 : psbot
네이버 : cowbot, naverbot, yeti
다음 : daumos
◆ 로봇 파일 작성
로봇 파일 작성법 : http://www.robotstxt.org/robotstxt.html
로봇 파일 작성툴 : http://www.mcanerin.com/en/search-engine/robots-txt.asp
■ 예시
- googlebot에대해 /dboard/files/designboard_down.php 불허
다른것들은 모두허가.
User-Agent:googlebot
Disallow: /dboard/files/designboard_down.php
User-Agent:*
Allow:
- 모든로봇에서 /dboard/files/designboard_down.php만 불허
User-agent: *
Disallow:
Disallow: /dboard/files/designboard_down.php
- 모든 컨텐츠 검색엔진에 노출 허용
User-Agent:*
Allow: /
- 모든 컨텐츠 검색엔진에 노출 방지
User-Agent:*
Disallow:/
- 특정 검색엔진 크롤러(구글 크롤러:googlebot)만 접근 거부
User-Agent:googlebot
Disallow:/
User-Agent:*
Allow:
- 특정 디렉토리만 노출 방지
User-Agent:*
Disallow:/특정디렉토리명/
- 모든로봇 허가
User-agent: *
Allow: /
- 모든 로봇을 차단하려면:
User-agent: *
Disallow: /
- BadBot이라는 로봇에 private, tmp 디렉터리 접근을 차단하려면:
User-agent: BadBot
Disallow: /private/
Disallow: /tmp/
- 모든 로봇에대해 /cgi-bin/,/tmp/, /~joe/ 불허
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/
- 모든 로봇에대해 불허.
User-agent: *
Disallow: /
- 모든 로봇에대해 불허가 없으므로 허가한다.
User-agent: *
Disallow:
- 모든로봇에대해 /~joe/stuff/ 불허
User-agent: *
Disallow: /~joe/stuff/
- 모든로봇에대해 /~joe/junk.html,/~joe/foo.html,/~joe/bar.html 불허
User-agent: *
Disallow: /~joe/junk.html
Disallow: /~joe/foo.html
Disallow: /~joe/bar.html
- 크롤링 속도 설정
Crawl-delay: 1 (비설정:Normal, 1: slow, 5: very slow, 10: Extremely Slow)
■ meta태그를 이용한 방법
HTML의 meta 태그를 이용할 수도 있다.
<meta name="Robots" content="Noindex,Nofollow" />
하지만 이러한 방법은 일반적인 방법이 아니고, 아직까지는 일부의 로봇만이 지원한다.
■ 로봇상세정보 확인
http://www.robotstxt.org/db/all.txt
■ 참고
http://www.robotstxt.org/
http://ko.wikipedia.org/wiki/Robots.txt
https://support.google.com/webmasters/answer/40361?hl=ko
http://blog.naver.com/PostView.nhn?blogId=cw4508&logNo=140135910264
http://www.youtu.kr/695
https://developers.google.com/webmasters/control-crawl-index/docs/crawlers?hl=ko
http://j07051.tistory.com/578
'web > server' 카테고리의 다른 글
사이트관리 (0) | 2019.07.16 |
---|---|
linux_서버관리 (0) | 2019.07.16 |
curl (0) | 2019.07.16 |
centOS - Apache - mysql - php 설치 (0) | 2019.07.16 |
AWS (0) | 2019.01.30 |
댓글