請小心運用robots.txt嚴禁搜索引擎網站抓取

  大家都曉得,在網站上線前,就是你的網址顯露在互聯網中,能引來谷歌,百度,雅虎,搜狗等等搜索引擎網站蛛蛛來爬前,網站的正題,關鍵字,描寫,和網站的結構布局必須要明確。一朝蛛蛛來爬以往,你的網站正題關鍵字描寫及結構布局,還在亂改動,這會很影響網站的收錄事情狀況和權重。這也往往是生手,每常犯的不正確。網站上線後,還在亂改,最後結果縱然收錄了,也會k首頁,降權重等等辦罪。

  所以有人說,在網站上線前在網站的robots.txt裡設置搜索引擎網站來爬動,等網站題目關鍵字布局等確認後,再解除禁令來爬。本人曾經沒有試過,新上線的一個網站天涯使容貌美麗屋減肥網,這前由於做股票網,做了幾天,又想正題做減肥。轉來轉去。曾經看了有人說可以在robots.txt寫嚴禁蛛蛛來爬,我查了網站log紀錄,只有googlebot來抓過,由於上線纔一天,其他搜索引擎網站還沒來,我也沒提交處理過。所以只在就嚴禁 Googlebot 日後抓取我的網站,請將以下 robots.txt 文件放入您服務器的根目次:

  User-agent: Googlebot

  Disallow: /

  最後結果以為沒事。而後自個兒改版著無幾了,天涯使容貌美麗屋減肥網上線了,提交處理搜索引擎網站,發外鏈,引蛛蛛,robots.txt裡也解除禁令了googlebot的來爬,最後結果一周後就這樣過去了,像百度,yahoo,搜狗等等的搜索引擎網站蛛蛛全來過了,惟獨googlebot再也沒有來,我很奇怪的。向來googlebot來的很快的,我做了幾個站,普通都是googlebot很快前來訪問,baidu蛛蛛反倒要一天後纔來。這回一周多了還不來,我越想越不稱心。在a5論壇和推一把論壇和google的論壇裡都發了提出問題,沒人能給我准確的應答,都不曉得端由。我自個兒也作了一點兒測試,用谷歌的摹擬蛛蛛手續來抓我的天涯使容貌美麗屋減肥網,最後結果顯露:首先我把天涯使容貌美麗屋減肥網的網址,指向了自個兒的本機上,而後用摹擬googlebot蛛蛛來抓,最後結果顯露如下所述:

  以下是 Googlebot 抓取該網頁的過程。

  URL: /

  日子: Wed Feb 03 03:11:47 PST 2010

  HTTP/1.1 200 OK

  Connection: close

  Date: Wed, 03 Feb 2010 11:11:40 GMT

  Content-Type: text/html; charset=gbk

  Server: Microsoft-IIS/6.0

  X-Powered-By: ASP.NET,PHP/5.2.9-2

  Access Denied

  竟至是不接受過訪,我這下頭大了,不接受過訪?我再一次查緝了網站的robots.txt裡邊沒有嚴禁谷歌來抓啊,網頁的meta標簽裡也沒有寫嚴禁,我甚至於把robots.txt都刪掉了。再用摹擬蛛蛛手續來抓還是是不接受過訪.我再次發論壇抱佛腳,還是沒人曉得端由和解決方法.而後我就寫了一封信給google,信內部實質意義如下所述:

  我的網站,天涯屋使容貌美麗減肥網 壓根兒我用這個域名著手做股票網的,做了幾天,感到股票網不可以,而後就改版做這個減肥網,改版的兩天時間內我在robots.txt裡設置了不接受全部蛛蛛來爬,如今我解除禁令了,別的蛛蛛像bd熱狗yahoo都有來爬,就惟有googlebot再也沒來,已經有一個星期了,剛剛我用網站管理職員具裡實驗室裡的像googlebot同樣爬取的功能測試爬取。

  天涯屋使容貌美麗減肥網 首頁,顯露最後結果是:

  以下是 Googlebot 抓取該網頁的過程。

  URL: /

  日子: Wed Feb 03 03:11:47 PST 2010

  HTTP/1.1 200 OK

  Connection: close

  Date: Wed, 03 Feb 2010 11:11:40 GMT

  Content-Type: text/html; charset=gbk

  Server: Microsoft-IIS/6.0

  X-Powered-By: ASP.NET,PHP/5.2.9-2

  Access Denied

  我查緝了robots.txt,甚至於刪掉了這個文件,還是是access denied,敬辭google管理擔任職務的人,這是怎麼回事,怎麼樣解決,是不是由於我曾經不接受過googlebot,如今googlebot裡有數值把我這個站參加了不接受過訪的單子了,仍然怎麼回事,急等奉復,謝謝

  信發過後,我同時也在作測試,我把天涯屋使容貌美麗減肥網的網址指向自個兒本地主機,而後用摹擬蛛蛛手續來爬,竟至能正常過訪,這證實這個域名是沒問題的,應當沒有進我所猜測的黑單子.這下我更想不通了?難不成是手續問題,手續裡除開robots.txt和meta標簽 裡能嚴禁搜索引擎網站蛛蛛來爬,還有其他地方也能嚴禁?難不成是虛擬主機問題?主機嚴禁了googlebot來爬?難不成是由於我一周前嚴禁過googlebot來爬,就留下了某種我不曉得的緩存文件,還是嚴禁著?而後我又把google adsense參加了這個站,adsense能顯露廣告,解釋明白adsense能前來訪問問.不過googlebot卻不可以過訪。

  更為奇怪的是,一個鍾頭後,也就是作者在寫這個文章前,我用谷歌網站管理職員具裡的像googlebot同樣爬取的功能測試時,竟至能爬動了,我看了一下子log紀錄,googlebot爬動了11次.這又是何故?是我寫了信的端由?google辦公擔任職務的人看見了,解決了,速率這樣高?仍然我把網址指向了我本機,又指歸來,這麼往返折騰後,又好的端由?真的想不清楚,惟一獲得的論斷是:

  必須要小心運用robots.txt嚴禁搜索引擎網站抓取.新站沒做好前,不要讓自個兒的網址顯露出來在互聯網不論什麼地方,也不要設置嚴禁蛛蛛來爬,等網站題目結構等確認好後,再去提交處理,引蛛蛛.本個人生命歷,期望生手引以為戒。