봇, 완전히 다 막을수는 없을까...

2006. 5. 7. 19:48Issue/IT

처음 태터를 만들었을때, 봇은 나에게 좋은 친구였다.
포털사이트의 블로그와는 달리, 고립되어 있던 나에게, 내 대신 내 블로그를 홍보도 해주고, 가끔 방문객도 모셔오는 소중한 존재였기 때문이다.

그러나 포스트를 작성할수록 봇은 나에게 부담이 되기 시작했다. 하루에도 수백번씩 긇어가는 봇들을 보면, 가끔 트래픽오버에 몸서리칠만큼...그래서 봇들을 제한하기 시작하였다.

처음엔 MSN과 Yahoo봇들을 먼저 막아놓았다.



워낙에 많이 긇어가기에 트래픽에 부담이 되기 때문이었다. 다만 구글의 경우, 그다지 많이 긇어가는 것이 아니기에 그대로 놨두었다. 그리고 몇일이 지났을까... 이전에는 별다른 히트수를 기록하지 않던 구글봇의 접속숫자가 급격히 늘어나기 시작하였다. 왜 그럴까.. 곰곰히 생각하다, 나는 한가지 추론을 내렸다.

야후는 내 블로그에 접속을 못한다. 그러나 이전에 내 블로그에 접속한 기록이 있기때문에 내 블로그의 관련글을 가지고 있다. 이 글의 최신정보를 얻기위해 야후는 '열린검색'을 통해 구글에 접속한다. 그리고 내 글의 정보를 가져간다. 구글은 내 글을 야후가 읽어갔기때문에 인지도가 높은 자료라고 판단, 해당 글의 최신정보를 얻기위해 다시 내 블로그에 접속한다. 이하 무한반복..

완벽한 추론은 아니지만, 대충 이같은 경로를 통해 내 블로그에 들어오는 것이 아닐까..

그래서 robot.txt 파일을 만들어 아예 봇들을 모두 차단시켜 버렸다. 봇들이 모두 차단되면서 가끔씩 들어오던 스팸 방명록이나 스탬 트래백을 받는 일도 거의 없어졌다. 그래서 한숨 돌렸나 싶었는데...

아뿔사.. 국내 검색엔진엔 robot파일이 먹히지 않는단다.. 우연히 엠파스에 들어갔는데, 내 글이 상위검색에 뜨는 것을 보고 얼마나 놀랐는지.. 물론 지금까지 웹로그툴을 이용하면서 엠파스봇이 기록된 적은 단 한 건도 없다.

처음엔 tracewatch가 외산 프로그램이기 때문에, 국내봇은 감지를 못하는가라고 생각도 하였지만 가끔 네이버봇이 기록된 적이 있기에 꼭 그것만은 아닌듯 싶다.

어찌되었든 이들 봇은 아무런 기록도 남기지않고, 내 블로그를 박박 긇어가고 있는 것이다. 

그래서 최근에 도입한 방법이 웹로그 분석. 아래는 tracewatch를 통한 방문자 경로 추적이다.

위 그림을 보면 참조 url이 없고, (즉 링크를 타고 들어온 것이 아니라, 내 블로그 주소를 직접 치고 들어왔다는 소리) 페이지를 순차적으로 읽어가면서 각 페이지별 접속시간도 극히 짦다. 좀더 신중을 기하기 위해, ip추적을 통해 해당 idc기관을 확인하고, 담당자에게 문의를 해 보아야겠지만... 그건 너무 번거롭고...

뭐, 이런 케이스는 십중팔구 이다. 아마 국내 봇중에 하나겠지.. 그래서 태터의 ip필터링에 등록시켜 주었다. 하나하나 일일히 확인하고 등록을 시켜주어야 되는데에다가, 유동아이피의 경우 선의의 피해자가 생길수 있는 그리 추천할만한 작업은 아니지만, 그래도 봇이 싫으니 어쩌겠어....

물론 봇이 무조건 적으로 나쁘다는 것은 아니다. 그러나, 내 블로그의 안정적인 서비스와 봇에 의한 홍보, 이 둘중 한가지를 선택하라면 난 당연히 1번이다. 혹 내가 쇼핑몰을 운영한다면 2번이 될지 모르지만, 적어도 이 블로그에선 무조건 1번. 예외는 없다.

근데 이걸로 문제를 모두 해결할수 있을까... 왠지 걱정된다. ^^;;

'Issue > IT' 카테고리의 다른 글

이글루스가 이사가네요...  (0) 2006.05.09
다음 멀티킷을 써 보고...  (2) 2006.05.08
[Util] Fraps 2.7 Retail.  (2) 2006.05.05
CBR과 VBR의 코딩 차이점  (2) 2006.05.05
AC3등의 음성코덱이 포함된 동영상 파일 추출하기  (0) 2006.05.05