Robots規則常見誤區及Google百度Robots工具的運用

對於robots.txt文件對於網站的效用大家都曉得，不過經過仔細查看發覺，有點朋友對於robots.txt文件的規則仍然有一定的誤區。

譬如有眾多人這麼寫：

User-agent: *

Allow: /

Disallow: /mulu/

不曉得大家有沒有見得，這個規則實際上是失靈的，第1句Allow: / 指的是准許蛛蛛爬動全部內部實質意義，第二句Disallow: /mulu/指的是嚴禁/mulu/下邊的全部內部實質意義。

外表上看這個規則想達到的目標是：准許蛛蛛爬動除開/mulu/以外的網站全部頁面。不過搜索引擎網站蛛蛛執行的規則是從上到下，這麼會導致第二句指示失去效力。

准確的規則應當是：

User-agent: *

Disallow: /mulu/

Allow: /

也就是先執行嚴禁指示，再執行准許指示，這麼就不會失去效力了。額外對於百度蛛蛛來說，還有一個容易犯的不正確，那就是Disallow指示和Allow指示在這以後要以斜杠/開頭，所以有點人這麼寫：Disallow: *.html 這麼對百度蛛蛛來說是不正確的，應當寫成：Disallow: /*.html 。

有時我們寫這些個規則有可能會有一點沒有注意到的問題，如今可以經過百度站長工具(zhanzhang.baidu.com)和Google站長工具來測試。相對來說百度站長工具robots工具相對簡陋一點：

百度Robots工具只能檢驗測定每一行指示是否合乎語法令規則則，不過不檢驗測定實效果和抓取思維規律規則。

相對來說Google的Robots工具好用眾多，如圖：

在谷歌站長工具裡的名字是抓取工具的職權范圍，並報告陳述Google抓取網站頁面的時刻被中途阻擋了若乾個網址。

還可以在線測試Robots改正後的效果，當然這處的改正只是測嘗試使用，假如沒有問題了，可以生成robots.txt文件，還是把指示代碼復制到robots.txt文本文檔中，上傳到網站根目次。

Google的測試跟百度有非常大的差別，它可以讓你輸入某一個還是某些網址，測試Google蛛蛛是否抓取這些個網址。

測試最後結果是這些個網址被Google蛛蛛抓取的事情狀況，這個測試對於Robots文件對某些特別指定url的規則是否管用。而兩個工具接合起來當然更好了，這下應當徹底清楚robots應當怎麼寫了吧。

過載請注明來自逍遙博客，本文地址：，過載請注明來源和鏈接!

The Blog

SEO諮詢: (852) 27208908