好似如今屏蔽baiduspider已經變成一種當時的風尚,難不成這玩意也跟著納斯達克變?
首先我自個兒不會屏蔽baiduspider,也半大信任baiduspider會故意疏忽robots.txt,但假如你實在想屏蔽 baiduspider,可試驗以下辦法:
1. 上傳一個robots.txt到根目次,內部實質意義為:
User-agent: baiduspider
Disallow: /
一個搜索引擎網站爬行動物辦公前首先應當過訪/robots.txt制定擯除列表,baiduspider還沒有辦法高級到故意疏忽某些網站的robots.txt,不曉得baiduspider怎麼折騰能力讓robots.txt失去效力。
2. 假如僅只由於服務器受不了,不防依照的指使修函給百度。估計眾多人試過得不到奉復(Google基本都是2個辦公日內奉復)。
3. 假如還萬不得已,可試驗.htaccess屏蔽,上傳一個.htaccess文件到根目次,內部實質意義為:
SetEnvIfNoCase User-Agent ^baiduspider ban_bot
deny from env=ban_bot
還可以擴張這個列表,屏蔽那一些Email提出取得爬行動物、網站克隆爬行動物等(盜賊普通不守法,但總比自個兒啥子都不做強):
SetEnvIfNoCase User-Agent ^baiduspider ban_bot
SetEnvIfNoCase User-Agent ^HTTrack ban_bot
SetEnvIfNoCase User-Agent ^EmailCollector ban_bot
SetEnvIfNoCase User-Agent ^EmailWolf ban_bot
SetEnvIfNoCase User-Agent ^ExtractorPro ban_bot
SetEnvIfNoCase User-Agent ^Offline ban_bot
SetEnvIfNoCase User-Agent ^WebCopier ban_bot
SetEnvIfNoCase User-Agent ^Webdupe ban_bot
SetEnvIfNoCase User-Agent ^WebZIP ban_bot
SetEnvIfNoCase User-Agent ^Web Downloader ban_bot
SetEnvIfNoCase User-Agent ^WebAuto ban_bot
SetEnvIfNoCase User-Agent ^WebCapture ban_bot
SetEnvIfNoCase User-Agent ^WebMirror ban_bot
SetEnvIfNoCase User-Agent ^WebStripper ban_bot
deny from env=ban_bot
.htaccess要用文本形式上傳,有點Apache配備布置比較怪異,避免引動沖突提議上傳後馬上看看是否影響平常的用戶的過訪。假如瀏覽正常,再用FlashGet摹擬baiduspider測試這個.htaccess是否辦公,辦法是:
FlashGet->工具->選項->協議,把HTTP用戶攝理改成用戶自定義:baiduspider;而後用FlashGet下載該網站恣意頁面,在FlashGet的下載日記裡獲得HTTP/1.1 403 Forbidden則成功.