謹慎別讓robots.txt阻止了鏈接的抓取

  我們曉得有非常大一小批的站長尋覓一種不讓蛛蛛在自個兒網站上爬動自個兒網頁的辦法,也一樣經過運用robot.txt文件做到達這點。固然這的確是一個美好的實實行徑,但問題也一樣閃現出來:在對運用robot.txt阻擋Google/Yahoo!/MSN還是一點其它的搜索引擎網站的蛛蛛爬動時的迷惑!下邊的簡單扼要的解釋明白:

  經過Robots.txt來阻擋抓取:一點URL地址沒想到被過訪,不過還是可以抓取並顯露出來在搜索引擎網站的最後結果頁面。

  經過META標簽的NoIndex來阻擋:可以過訪,不過沒想到被抓取,在搜索最後結果中也沒想到被列出來。

  經過嚴禁順著頁面上的鏈接接著抓取來阻擋:這不是一個很懂事理的舉措,由於有一點其它的鏈接替職務然期望經過抓取頁面來引得它!(假如你不放心上這會耗費蛛蛛在你頁面上檢索的時間的話那你也可以這麼做,不過不要覺得這麼做便會讓它不顯露出來在搜索引擎網站的最後結果頁面)

  下邊給個簡單的例子固然在robot.txt裡邊限止了蛛蛛的抓取不過還是會顯露出來在Google的搜索最後結果中。

  

  (robot.txt文件一樣對子域管用)

  我們可以看見這個about.com的/library/nosearch/文件已經被屏蔽了,下圖所示當我們在Google裡搜索這個文件裡的URL地址的最後結果:

  

  注意看Google依舊有2,760個搜索最後結果在所說的的被團體的目次下。他們沒有抓取這些個頁面,所以看到的只有簡單的一個鏈接地址,沒有描寫沒有題目,由於Google看不見這些個頁面的內部實質意義。

  讓我們在進一步的設想,假如你有非常大一個數目的網頁沒想到被搜索引擎網站抓取,不過這些個URL地址仍然會被計算在內,並總計流量等其它一點不為人知的獨立的名次因素,不過他們並不可以順著這個鏈接接著爬下去,因為這個從他們那邊倒出的鏈接永恆沒可能被看見,請看下圖:

  

  這處有兩個方便的辦法:

  1. 節約這些個鏈接數值流經過當鏈接到robot.txt裡邊嚴禁的的目次時運用nofollow指示。

  2. 假如你曉得這些個被嚴禁的頁面有哪一些固定的鏈接流(尤其是外鏈帶來的),可以思索問題下運用meta的noindex,follow來接替,這麼蛛蛛便會跳過這些個鏈接流,以便節約時間去檢索更多你網站裡需求它的頁面!