본문 바로가기

로봇배제 표준(robots.txt)

web/server by 낼스 2014. 5. 7.
■ 로봇 배제표준 이란?
    로봇 배제 표준은 웹 사이트에 로봇이 접근하는 것을 방지하기 위한 규약으로,
    일반적으로 접근 제한에 대한 설명을 robots.txt에 기술한다.
    이 규약은 1994년 6월에 처음 만들어졌고, 아직 이 규약에 대한 RFC는 없다.

    이 규약은 권고안이며, 로봇이 robots.txt 파일을 읽고 접근을 중지하는 것을 목적으로 한다.
    따라서, 접근 방지 설정을 하였다고 해도, 다른 사람들이 그 파일에 접근할 수 있다.

■ robots.txt 파일의 게재위치
    ▶ https://support.google.com/webmasters/answer/40361?hl=ko
    robots.txt 파일은 도메인의 루트에 있어야 하며 이름은 ‘robots.txt’여야 합니다.
    검색 로봇은 도메인의 루트에 있는 robots.txt 파일만 찾기 때문에 하위 디렉토리에 있는 파일은 유효하지 않습니다.
    예를 들어 http://www.example.com/robots.txt는 유효한 위치이지만,
              http://www.example.com/mysite/robots.txt는 유효하지 않습니다.
    도메인 루트에 대한 액세스 권한이 없다면 Robots 메타 태그를 이용해서 액세스를 제한할 수 있습니다.

■ 검색로봇 종류
    구글로봇 : Googlebot
    구글 이미지 : googlebot-image
    구글 모바일 : googlebot-mobile
    야후로봇 : Slurp, yahoo-slurp
    야후 이미지 : Yahoo-MMCrawler
    야후 블로그 : yahoo-blog
    MSN : MSNBot
    MSN 이미지 : psbot
    네이버 : cowbot, naverbot, yeti
    다음 : daumos


◆ 로봇 파일 작성
   로봇 파일 작성법 : http://www.robotstxt.org/robotstxt.html
   로봇 파일 작성툴 : http://www.mcanerin.com/en/search-engine/robots-txt.asp

■ 예시
    - googlebot에대해 /dboard/files/designboard_down.php 불허
      다른것들은 모두허가.
        User-Agent:googlebot
        Disallow: /dboard/files/designboard_down.php
        User-Agent:*
        Allow:

    - 모든로봇에서 /dboard/files/designboard_down.php만 불허
        User-agent: *
        Disallow:
        Disallow: /dboard/files/designboard_down.php

    - 모든 컨텐츠 검색엔진에 노출 허용
        User-Agent:*
        Allow: /

    - 모든 컨텐츠 검색엔진에 노출 방지
        User-Agent:*
        Disallow:/

    - 특정 검색엔진 크롤러(구글 크롤러:googlebot)만 접근 거부
        User-Agent:googlebot
        Disallow:/
        User-Agent:*
        Allow:

    - 특정 디렉토리만 노출 방지
        User-Agent:*
        Disallow:/특정디렉토리명/

    - 모든로봇 허가
        User-agent: *
        Allow: /

    - 모든 로봇을 차단하려면:
        User-agent: *
        Disallow: /

    - BadBot이라는 로봇에 private, tmp 디렉터리 접근을 차단하려면:
        User-agent: BadBot
        Disallow: /private/
        Disallow: /tmp/

    - 모든 로봇에대해 /cgi-bin/,/tmp/, /~joe/ 불허
        User-agent: *
        Disallow: /cgi-bin/
        Disallow: /tmp/
        Disallow: /~joe/

    - 모든 로봇에대해 불허.
        User-agent: *
        Disallow: /

    - 모든 로봇에대해 불허가 없으므로 허가한다.
        User-agent: *
        Disallow:

    - 모든로봇에대해 /~joe/stuff/ 불허
        User-agent: *
        Disallow: /~joe/stuff/

    - 모든로봇에대해 /~joe/junk.html,/~joe/foo.html,/~joe/bar.html 불허
        User-agent: *
        Disallow: /~joe/junk.html
        Disallow: /~joe/foo.html
        Disallow: /~joe/bar.html

    - 크롤링 속도 설정
        Crawl-delay: 1 (비설정:Normal, 1: slow, 5: very slow, 10: Extremely Slow)

■ meta태그를 이용한 방법
    HTML의 meta 태그를 이용할 수도 있다.
    <meta name="Robots" content="Noindex,Nofollow" />
    하지만 이러한 방법은 일반적인 방법이 아니고, 아직까지는 일부의 로봇만이 지원한다.

■ 로봇상세정보 확인
    http://www.robotstxt.org/db/all.txt

■ 참고
    http://www.robotstxt.org/
   
    http://ko.wikipedia.org/wiki/Robots.txt
    https://support.google.com/webmasters/answer/40361?hl=ko
    http://blog.naver.com/PostView.nhn?blogId=cw4508&logNo=140135910264
    http://www.youtu.kr/695
    https://developers.google.com/webmasters/control-crawl-index/docs/crawlers?hl=ko

    http://j07051.tistory.com/578


'web > server' 카테고리의 다른 글

사이트관리  (0) 2019.07.16
linux_서버관리  (0) 2019.07.16
curl  (0) 2019.07.16
centOS - Apache - mysql - php 설치  (0) 2019.07.16
AWS  (0) 2019.01.30

댓글