Robots規則常見誤區及Google百度Robots工具的運用

Robots規則常見誤區及Google百度Robots工具的運用

對於robots.txt文件對於網站的效用大家都曉得,不過經過仔細查看發覺,有點朋友對於robots.txt文件的規則仍然有一定的誤區。

 

譬如有眾多人這麼寫:

 

User-agent: *

 

Allow: /

 

Disallow: /mulu/

 

不曉得大家有沒有見得,這個規則實際上是失靈的,第1句Allow: / 指的是准許蛛蛛爬動全部內部實質意義,第二句Disallow: /mulu/指的是嚴禁/mulu/下邊的全部內部實質意義。

 

外表上看這個規則想達到的目標是:准許蛛蛛爬動除開/mulu/以外的網站全部頁面。不過搜索引擎網站蛛蛛執行的規則是從上到下,這麼會導致第二句指示失去效力。

 

准確的規則應當是:

 

User-agent: *

 

Disallow: /mulu/

 

Allow: /

 

也就是先執行嚴禁指示,再執行准許指示,這麼就不會失去效力了。額外對於百度蛛蛛來說,還有一個容易犯的不正確,那就是Disallow指示和Allow指示在這以後要以斜杠/開頭,所以有點人這麼寫:Disallow: *.html 這麼對百度蛛蛛來說是不正確的,應當寫成:Disallow: /*.html 。

 

有時我們寫這些個規則有可能會有一點沒有注意到的問題,如今可以經過百度站長工具(zhanzhang.baidu.com)和Google站長工具來測試。相對來說百度站長工具robots工具相對簡陋一點:

 

 

 

 

 

 

 

 

 

 

 

 

 

百度Robots工具只能檢驗測定每一行指示是否合乎語法令規則則,不過不檢驗測定實效果和抓取思維規律規則。

 

相對來說Google的Robots工具好用眾多,如圖:

 

 

 

 

 

在谷歌站長工具裡的名字是抓取工具的職權范圍,並報告陳述Google抓取網站頁面的時刻被中途阻擋了若乾個網址。

 

 

 

 

 

還可以在線測試Robots改正後的效果,當然這處的改正只是測嘗試使用,假如沒有問題了,可以生成robots.txt文件,還是把指示代碼復制到robots.txt文本文檔中,上傳到網站根目次。

 

 

 

 

 

Google的測試跟百度有非常大的差別,它可以讓你輸入某一個還是某些網址,測試Google蛛蛛是否抓取這些個網址。

 

 

 

 

 

測試最後結果是這些個網址被Google蛛蛛抓取的事情狀況,這個測試對於Robots文件對某些特別指定url的規則是否管用。而兩個工具接合起來當然更好了,這下應當徹底清楚robots應當怎麼寫了吧。

 

過載請注明來自逍遙博客,本文地址:,過載請注明來源和鏈接!