假如你實在想屏蔽百度蛛蛛 試驗以下辦法

  好似如今屏蔽baiduspider已經變成一種當時的風尚,難不成這玩意也跟著納斯達克變?

  首先我自個兒不會屏蔽baiduspider,也半大信任baiduspider會故意疏忽robots.txt,但假如你實在想屏蔽 baiduspider,可試驗以下辦法:

  1. 上傳一個robots.txt到根目次,內部實質意義為:

  User-agent: baiduspider

  Disallow: /

  一個搜索引擎網站爬行動物辦公前首先應當過訪/robots.txt制定擯除列表,baiduspider還沒有辦法高級到故意疏忽某些網站的robots.txt,不曉得baiduspider怎麼折騰能力讓robots.txt失去效力。

  2. 假如僅只由於服務器受不了,不防依照的指使修函給百度。估計眾多人試過得不到奉復(Google基本都是2個辦公日內奉復)。

  3. 假如還萬不得已,可試驗.htaccess屏蔽,上傳一個.htaccess文件到根目次,內部實質意義為:

  SetEnvIfNoCase User-Agent ^baiduspider ban_bot

  deny from env=ban_bot

  還可以擴張這個列表,屏蔽那一些Email提出取得爬行動物、網站克隆爬行動物等(盜賊普通不守法,但總比自個兒啥子都不做強):

  SetEnvIfNoCase User-Agent ^baiduspider ban_bot

  SetEnvIfNoCase User-Agent ^HTTrack ban_bot

  SetEnvIfNoCase User-Agent ^EmailCollector ban_bot

  SetEnvIfNoCase User-Agent ^EmailWolf ban_bot

  SetEnvIfNoCase User-Agent ^ExtractorPro ban_bot

  SetEnvIfNoCase User-Agent ^Offline ban_bot

  SetEnvIfNoCase User-Agent ^WebCopier ban_bot

  SetEnvIfNoCase User-Agent ^Webdupe ban_bot

  SetEnvIfNoCase User-Agent ^WebZIP ban_bot

  SetEnvIfNoCase User-Agent ^Web Downloader ban_bot

  SetEnvIfNoCase User-Agent ^WebAuto ban_bot

  SetEnvIfNoCase User-Agent ^WebCapture ban_bot

  SetEnvIfNoCase User-Agent ^WebMirror ban_bot

  SetEnvIfNoCase User-Agent ^WebStripper ban_bot

  deny from env=ban_bot

  .htaccess要用文本形式上傳,有點Apache配備布置比較怪異,避免引動沖突提議上傳後馬上看看是否影響平常的用戶的過訪。假如瀏覽正常,再用FlashGet摹擬baiduspider測試這個.htaccess是否辦公,辦法是:

  FlashGet->工具->選項->協議,把HTTP用戶攝理改成用戶自定義:baiduspider;而後用FlashGet下載該網站恣意頁面,在FlashGet的下載日記裡獲得HTTP/1.1 403 Forbidden則成功.