검색엔진봇차단 바이두의 스팸과도 같은 트래픽공격-Baiduspider 봇 차단하기

검색엔진봇차단 바이두의 스팸과도 같은 트래픽공격-Baiduspider 봇 차단하기

사이트나 블로그를 운영하다 보면 검색엔진에 등록을 하거나 저절로 타 해외검색엔진인 바이두나, 구글,빙,야후등 다양한 검색엔진 봇들이 글들을 수집하기 위해 사이트에 방문을 합니다.

자신의 글들을 무료로 긁어가 홍보해주겠다는데 좋죠.
하지만, 심한 봇의 방문은 과다한 트래픽을 유발하게되고, 사이트가 망하게 되버리죠.
호스팅업체에서 월 얼마씩 끊어서 사용하는데 버텨 줄리가 없으니깐요.
그렇다고 집에서 서버를 돌리는 거면 다행지만..그래도 과부하로 인한 사이트가 멈추는일이 잦아 질테니 임시방편보다 원천적으로 긁어가지 않게 셋팅을 해놓으시기 바랍니다.

1. robot.txt 로 검색엔진 봇 차단하기

http://www.mcanerin.com/EN/search-engine/robots-txt.asp
에 들어가셔서 해당 차단하고 싶은 봇을 설정하고 robot.txt 텍스트 파일하나 만들어 코드를 집어 넣어 ftp계정에 업로드(도메인 최상위위치) 해줍니다.

그뒤에
http://tool.motoricerca.info/robots-checker.phtml 위사이트에서 robot.txt파일이 잘 돌아가는지 확인하세요.


각 명령어를 해석을 하고 넘어간다면...

1. 모든 컨텐츠 검색엔진에 노출 허용

User-Agent:*

Allow: /

2. 모든 컨텐츠 검색엔진에 노출 방지

User-Agent:*

Disallow:/

3. 특정 디렉토리만 노출 방지

User-Agent:*

Disallow:/특정디렉토리명/

4. 특정 검색엔진 크롤러(구글 크롤러:googlebot)만 접근 거부

User-Agent:googlebot

Disallow:/

User-Agent:*

Allow:

robot.txt 파일만으로도 대부분 막아지지만 악독같은 바이두는 뚫어버릴수도 있다. 그럴땐
아래방법을 사용하자

2. 메타태그를 활용하라

아래 태그를 페이지 소스코드 <head></head> 사이에 입력을 하면 국제 표준 메타 태그 정의에 의해 검색봇이 아래 태그가 있는 페이지는 검색하지 않게 됩니다.

<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">



3. htaccess 를 활용하라

그래도 뚫는다면.   ftp 에 htaccess 를 활용해서 원천적으로 막아버리자.

해당 ip대역은 *.*으로 구성하여


.htaccess

SetEnvIfNoCase remote_addr 123.123.*.* go_out
SetEnvIfNoCase remote_addr 123.123.123.* go_out
SetEnvIfNoCase User-Agent "http\:\/\/www\.checkprivacy\.or\.kr\:6600\/RS\/PRIVACY\_FAQ\.jsp" go_out

Order Allow,Deny
Allow from all
Deny from env=go_out


더 자세항 htaccess 작성법은 아래 파일 다운
파일다운

댓글

이 블로그의 인기 게시물

사이트 상위노출 웹문서 글쓰기방법 1

사이트 커뮤니티 활성화 방안

국내ip와 프록시 서버를 활용한 웹문서 상위노출 전략