網站robots.txt運用中等見的誤區

  不久前寫了robots.txt的規則誤區並紹介百度和Google的robots工具的運用,紹介了幾個robots.txt文件的規則的誤區,而後發事實際上繼續不停那一些,還有眾多大家沒有注意的誤區。

  今日從新列舉一下子常見的robots.txt實際運用中的誤區:

  誤區1.Allow裡面含有的范圍超過Disallow,況且位置在Disallow面前。

  譬如有眾多人這麼寫:

  User-agent: *

  Allow: /

  Disallow: /mulu/

  想讓全部蛛蛛抓取本站除/mulu/下邊的url以外的全部頁面,嚴禁抓取/mulu/下邊的全部url。

  搜索引擎網站蛛蛛執行的規則是從上到下,這麼會導致第二句指示失去效力。也就是說嚴禁抓取/mulu/目次這條規則是失效的。准確的是Disallow應當在Allow之上,這麼纔會發生效力。

  誤區2.Disallow指示和Allow指示在這以後沒有以斜杠/開頭。

  這個也很容易被不重視,譬如seo有人這麼寫Disallow: 123.html ,這種是沒管用果的。斜杠/表達的是文件對於根目次的位置,假如不帶的話,天然沒有辦法判斷url是哪一個,所以是不正確的。

  准確的應當是Disallow: /123.html,這麼能力屏蔽/123.html這個文件,這條規則能力發生效力。

  誤區3.屏蔽的目次後沒有帶斜杠/。

  也就是譬如想屏蔽抓取/mulu/這個目次,有點人這麼寫Disallow: /mulu。那末這麼是否准確呢?

  首先這麼寫(Disallow: /mulu)的確可以屏蔽/mulu/下邊的全部url,然而同時也屏蔽了大致相似/mulu123.html這種開頭為/mulu的全部頁面,效果等同於Disallow: /mulu*。

  准確的作法是,假如只想屏蔽目次,那末務必在結末帶上斜杠/。

  過載請注明來自逍遙博客,本文地址:

  過載請注明來源和鏈接!