검색엔진봇차단 바이두의 스팸과도 같은 트래픽공격-Baiduspider 봇 차단하기
검색엔진봇차단 바이두의 스팸과도 같은 트래픽공격-Baiduspider 봇 차단하기
사이트나 블로그를 운영하다 보면 검색엔진에 등록을 하거나 저절로 타 해외검색엔진인 바이두나, 구글,빙,야후등 다양한 검색엔진 봇들이 글들을 수집하기 위해 사이트에 방문을 합니다.
자신의 글들을 무료로 긁어가 홍보해주겠다는데 좋죠.
하지만, 심한 봇의 방문은 과다한 트래픽을 유발하게되고, 사이트가 망하게 되버리죠.
호스팅업체에서 월 얼마씩 끊어서 사용하는데 버텨 줄리가 없으니깐요.
그렇다고 집에서 서버를 돌리는 거면 다행지만..그래도 과부하로 인한 사이트가 멈추는일이 잦아 질테니 임시방편보다 원천적으로 긁어가지 않게 셋팅을 해놓으시기 바랍니다.
1. robot.txt 로 검색엔진 봇 차단하기
http://www.mcanerin.com/EN/search-engine/robots-txt.asp
에 들어가셔서 해당 차단하고 싶은 봇을 설정하고 robot.txt 텍스트 파일하나 만들어 코드를 집어 넣어 ftp계정에 업로드(도메인 최상위위치) 해줍니다.
그뒤에
http://tool.motoricerca.info/robots-checker.phtml 위사이트에서 robot.txt파일이 잘 돌아가는지 확인하세요.
각 명령어를 해석을 하고 넘어간다면...
1. 모든 컨텐츠 검색엔진에 노출 허용
User-Agent:*
Allow: /
2. 모든 컨텐츠 검색엔진에 노출 방지
User-Agent:*
Disallow:/
3. 특정 디렉토리만 노출 방지
User-Agent:*
Disallow:/특정디렉토리명/
4. 특정 검색엔진 크롤러(구글 크롤러:googlebot)만 접근 거부
User-Agent:googlebot
Disallow:/
User-Agent:*
Allow:
robot.txt 파일만으로도 대부분 막아지지만 악독같은 바이두는 뚫어버릴수도 있다. 그럴땐
아래방법을 사용하자
2. 메타태그를 활용하라
아래 태그를 페이지 소스코드 <head></head> 사이에 입력을 하면 국제 표준 메타 태그 정의에 의해 검색봇이 아래 태그가 있는 페이지는 검색하지 않게 됩니다.
<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">
3. htaccess 를 활용하라
그래도 뚫는다면. ftp 에 htaccess 를 활용해서 원천적으로 막아버리자.
해당 ip대역은 *.*으로 구성하여
.htaccess
SetEnvIfNoCase remote_addr 123.123.*.* go_out
SetEnvIfNoCase remote_addr 123.123.123.* go_out
SetEnvIfNoCase User-Agent "http\:\/\/www\.checkprivacy\.or\.kr\:6600\/RS\/PRIVACY\_FAQ\.jsp" go_out
Order Allow,Deny
Allow from all
Deny from env=go_out
더 자세항 htaccess 작성법은 아래 파일 다운
파일다운
사이트나 블로그를 운영하다 보면 검색엔진에 등록을 하거나 저절로 타 해외검색엔진인 바이두나, 구글,빙,야후등 다양한 검색엔진 봇들이 글들을 수집하기 위해 사이트에 방문을 합니다.
자신의 글들을 무료로 긁어가 홍보해주겠다는데 좋죠.
하지만, 심한 봇의 방문은 과다한 트래픽을 유발하게되고, 사이트가 망하게 되버리죠.
호스팅업체에서 월 얼마씩 끊어서 사용하는데 버텨 줄리가 없으니깐요.
그렇다고 집에서 서버를 돌리는 거면 다행지만..그래도 과부하로 인한 사이트가 멈추는일이 잦아 질테니 임시방편보다 원천적으로 긁어가지 않게 셋팅을 해놓으시기 바랍니다.
1. robot.txt 로 검색엔진 봇 차단하기
http://www.mcanerin.com/EN/search-engine/robots-txt.asp
에 들어가셔서 해당 차단하고 싶은 봇을 설정하고 robot.txt 텍스트 파일하나 만들어 코드를 집어 넣어 ftp계정에 업로드(도메인 최상위위치) 해줍니다.
그뒤에
http://tool.motoricerca.info/robots-checker.phtml 위사이트에서 robot.txt파일이 잘 돌아가는지 확인하세요.
각 명령어를 해석을 하고 넘어간다면...
1. 모든 컨텐츠 검색엔진에 노출 허용
User-Agent:*
Allow: /
2. 모든 컨텐츠 검색엔진에 노출 방지
User-Agent:*
Disallow:/
3. 특정 디렉토리만 노출 방지
User-Agent:*
Disallow:/특정디렉토리명/
4. 특정 검색엔진 크롤러(구글 크롤러:googlebot)만 접근 거부
User-Agent:googlebot
Disallow:/
User-Agent:*
Allow:
robot.txt 파일만으로도 대부분 막아지지만 악독같은 바이두는 뚫어버릴수도 있다. 그럴땐
아래방법을 사용하자
2. 메타태그를 활용하라
아래 태그를 페이지 소스코드 <head></head> 사이에 입력을 하면 국제 표준 메타 태그 정의에 의해 검색봇이 아래 태그가 있는 페이지는 검색하지 않게 됩니다.
<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">
3. htaccess 를 활용하라
그래도 뚫는다면. ftp 에 htaccess 를 활용해서 원천적으로 막아버리자.
해당 ip대역은 *.*으로 구성하여
.htaccess
SetEnvIfNoCase remote_addr 123.123.*.* go_out
SetEnvIfNoCase remote_addr 123.123.123.* go_out
SetEnvIfNoCase User-Agent "http\:\/\/www\.checkprivacy\.or\.kr\:6600\/RS\/PRIVACY\_FAQ\.jsp" go_out
Order Allow,Deny
Allow from all
Deny from env=go_out
더 자세항 htaccess 작성법은 아래 파일 다운
파일다운
댓글
댓글 쓰기