百度spider不支持Crawl-delay設置對優化的影響

  今日晌午百度站長社區平臺更新了一條公告,如下所述:


  尊崇的各位用戶,關系密切的站長們,大家好:

  近期,我們收到一點對Crawl-delay用處的問詢,現明確百度對網站過訪頻率不再參照該設置,即不支持Crawl-delay配備布置,假如您期望配備布置網站針對百度spider的過訪頻率,提議您運用百度站長平臺的抓取壓力反饋工具,先查問網站在百度近一個月的天極抓取量發展方向圖,可調節百度spider每日過訪您網站的抓取壓力最大限度,供百度參照,防止百度spider對站點抓取壓力過大,導致網站服務器負載及抓取異常。

  信任眾多人都不明白啥子是Crawl-delay,作者也是纔曉得有這個物品,經過搜索,作者理解到Crawl-delay移譯成漢字意思是抓取延緩的意思。那末Crawl-delay到盡頭作什麼用的呢?用在啥子地方呢?作者在一番查問在這以後收拾出來,與大家分享:

  要談到Crawl-delay的用場,還需求提及大家都比較知道得清楚的Robots協議,網站經過robots協議奉告搜索引擎網站哪一些頁面可以抓取,哪一些頁面不可以抓取。而經過Crawl-delay我們可以設置一個讓蛛蛛有較低的抓取煩請頻率,這麼就可以減低了服務器的壓力,而設置Cralw-delay的體積應當依據服務器能夠承擔的壓力和機器人的數目來確認。例如你期望yahoo的機器人每2秒來一次,就應當先檢查過訪服務器的yahoo的機 器人有若乾個,如果有40個yahoo機器人,這個參變量就應當設置為2*40=80。但假如40多個爬行動物正好都在同一個時間段內搜集,即使每只間隔100秒,40只先後腳的來爬,到最終一只 爬完後,第1只的間隔時間又到達,導致的壓力非常大了,然而這有可能是最理想狀況下纔會發生的。

  接下來展覽一個 Crawl-delay的應用實際的例子:

  


  大家可以看見Crawl-delay 後面的數字100表達奉告蛛蛛手續,以秒為單位的最低延時。假如crawler頻率對您的服務器是一個負擔,您可以將這個延時設定為不論什麼您覺得妥當的數碼,每間隔100s來爬動一次。這個設置仿佛好象只針對於大站,小站很少見,設置Crawl-delay注要端由是蛛蛛手續爬的過快,會給服務器照成負擔,影響正常的網站展覽速度。

  百度此次專門特地散發聲明說不支持Crawl-delay設置,並不代表從這個時候起Crawl-delay設置無用武之地。到現在為止支持這個參變量的搜索引擎網站有Slurp(yahoo和altaVista的機器人)、MSN運用的微軟機器人,Googlebot還沒有運用Crawl-delay參變量,如今百度也沒有,那末我們可以反過來想,假如我們主要是以百度搜索為主要推廣手眼以其它搜索引擎網站為匡助的話,我們可以在服務器條件非常不好的事情狀況下,經過設置Crawl-delay減低其它搜索引擎網站的抓取頻率,這麼就可以合理的減損服務器壓力,從事電影事業響優化因素的角度來講也是一個好消息兒!

  所以,無論百度怎麼變,宗旨是不會變的,我們在環繞百度做優化的同時,合理的采取一點小技法,或許會收到意料不及的收獲!

  文章編輯由南昌胃腸查緝/獨家撰寫,過載請勿刪去源地址!