網站robots.txt運用中等見的誤區

　　不久前寫了robots.txt的規則誤區並紹介百度和Google的robots工具的運用，紹介了幾個robots.txt文件的規則的誤區，而後發事實際上繼續不停那一些，還有眾多大家沒有注意的誤區。

　　今日從新列舉一下子常見的robots.txt實際運用中的誤區：

　　誤區1.Allow裡面含有的范圍超過Disallow，況且位置在Disallow面前。

　　譬如有眾多人這麼寫：

　　User-agent: *

　　Allow: /

　　Disallow: /mulu/

　　想讓全部蛛蛛抓取本站除/mulu/下邊的url以外的全部頁面，嚴禁抓取/mulu/下邊的全部url。

　　搜索引擎網站蛛蛛執行的規則是從上到下，這麼會導致第二句指示失去效力。也就是說嚴禁抓取/mulu/目次這條規則是失效的。准確的是Disallow應當在Allow之上，這麼纔會發生效力。

　　誤區2.Disallow指示和Allow指示在這以後沒有以斜杠/開頭。

　　這個也很容易被不重視，譬如seo有人這麼寫Disallow: 123.html ，這種是沒管用果的。斜杠/表達的是文件對於根目次的位置，假如不帶的話，天然沒有辦法判斷url是哪一個，所以是不正確的。

　　准確的應當是Disallow: /123.html，這麼能力屏蔽/123.html這個文件，這條規則能力發生效力。

　　誤區3.屏蔽的目次後沒有帶斜杠/。

　　也就是譬如想屏蔽抓取/mulu/這個目次，有點人這麼寫Disallow: /mulu。那末這麼是否准確呢?

　　首先這麼寫(Disallow: /mulu)的確可以屏蔽/mulu/下邊的全部url，然而同時也屏蔽了大致相似/mulu123.html這種開頭為/mulu的全部頁面，效果等同於Disallow: /mulu*。

　　准確的作法是，假如只想屏蔽目次，那末務必在結末帶上斜杠/。

　　過載請注明來自逍遙博客，本文地址：

　　過載請注明來源和鏈接!

The Blog