請小心運用robots.txt嚴禁搜索引擎網站抓取

　　大家都曉得，在網站上線前，就是你的網址顯露在互聯網中，能引來谷歌，百度，雅虎，搜狗等等搜索引擎網站蛛蛛來爬前，網站的正題，關鍵字，描寫，和網站的結構布局必須要明確。一朝蛛蛛來爬以往，你的網站正題關鍵字描寫及結構布局，還在亂改動，這會很影響網站的收錄事情狀況和權重。這也往往是生手，每常犯的不正確。網站上線後，還在亂改，最後結果縱然收錄了，也會k首頁，降權重等等辦罪。

　　所以有人說，在網站上線前在網站的robots.txt裡設置搜索引擎網站來爬動，等網站題目關鍵字布局等確認後，再解除禁令來爬。本人曾經沒有試過，新上線的一個網站天涯使容貌美麗屋減肥網，這前由於做股票網，做了幾天，又想正題做減肥。轉來轉去。曾經看了有人說可以在robots.txt寫嚴禁蛛蛛來爬，我查了網站log紀錄，只有googlebot來抓過，由於上線纔一天，其他搜索引擎網站還沒來，我也沒提交處理過。所以只在就嚴禁 Googlebot 日後抓取我的網站，請將以下 robots.txt 文件放入您服務器的根目次：

　　User-agent: Googlebot

　　Disallow: /

　　最後結果以為沒事。而後自個兒改版著無幾了，天涯使容貌美麗屋減肥網上線了，提交處理搜索引擎網站，發外鏈，引蛛蛛，robots.txt裡也解除禁令了googlebot的來爬，最後結果一周後就這樣過去了，像百度，yahoo,搜狗等等的搜索引擎網站蛛蛛全來過了，惟獨googlebot再也沒有來，我很奇怪的。向來googlebot來的很快的，我做了幾個站，普通都是googlebot很快前來訪問,baidu蛛蛛反倒要一天後纔來。這回一周多了還不來，我越想越不稱心。在a5論壇和推一把論壇和google的論壇裡都發了提出問題，沒人能給我准確的應答，都不曉得端由。我自個兒也作了一點兒測試，用谷歌的摹擬蛛蛛手續來抓我的天涯使容貌美麗屋減肥網，最後結果顯露：首先我把天涯使容貌美麗屋減肥網的網址，指向了自個兒的本機上，而後用摹擬googlebot蛛蛛來抓，最後結果顯露如下所述：

　　以下是 Googlebot 抓取該網頁的過程。

　　URL： /

　　日子： Wed Feb 03 03:11:47 PST 2010

　　HTTP/1.1 200 OK

　　Connection: close

　　Date: Wed, 03 Feb 2010 11:11:40 GMT

　　Content-Type: text/html; charset=gbk

　　Server: Microsoft-IIS/6.0

　　X-Powered-By: ASP.NET,PHP/5.2.9-2

　　Access Denied

　　竟至是不接受過訪，我這下頭大了，不接受過訪?我再一次查緝了網站的robots.txt裡邊沒有嚴禁谷歌來抓啊，網頁的meta標簽裡也沒有寫嚴禁，我甚至於把robots.txt都刪掉了。再用摹擬蛛蛛手續來抓還是是不接受過訪.我再次發論壇抱佛腳，還是沒人曉得端由和解決方法.而後我就寫了一封信給google,信內部實質意義如下所述:

　　我的網站，天涯屋使容貌美麗減肥網壓根兒我用這個域名著手做股票網的，做了幾天，感到股票網不可以，而後就改版做這個減肥網,改版的兩天時間內我在robots.txt裡設置了不接受全部蛛蛛來爬，如今我解除禁令了，別的蛛蛛像bd熱狗yahoo都有來爬，就惟有googlebot再也沒來，已經有一個星期了，剛剛我用網站管理職員具裡實驗室裡的像googlebot同樣爬取的功能測試爬取。

　　天涯屋使容貌美麗減肥網首頁，顯露最後結果是:

　　以下是 Googlebot 抓取該網頁的過程。

　　URL： /

　　日子： Wed Feb 03 03:11:47 PST 2010

　　HTTP/1.1 200 OK

　　Connection: close

　　Date: Wed, 03 Feb 2010 11:11:40 GMT

　　Content-Type: text/html; charset=gbk

　　Server: Microsoft-IIS/6.0

　　X-Powered-By: ASP.NET,PHP/5.2.9-2

　　Access Denied

　　我查緝了robots.txt，甚至於刪掉了這個文件，還是是access denied，敬辭google管理擔任職務的人，這是怎麼回事，怎麼樣解決，是不是由於我曾經不接受過googlebot，如今googlebot裡有數值把我這個站參加了不接受過訪的單子了，仍然怎麼回事，急等奉復，謝謝

　　信發過後，我同時也在作測試，我把天涯屋使容貌美麗減肥網的網址指向自個兒本地主機,而後用摹擬蛛蛛手續來爬，竟至能正常過訪，這證實這個域名是沒問題的，應當沒有進我所猜測的黑單子.這下我更想不通了?難不成是手續問題，手續裡除開robots.txt和meta標簽　裡能嚴禁搜索引擎網站蛛蛛來爬，還有其他地方也能嚴禁?難不成是虛擬主機問題?主機嚴禁了googlebot來爬?難不成是由於我一周前嚴禁過googlebot來爬，就留下了某種我不曉得的緩存文件，還是嚴禁著?而後我又把google adsense參加了這個站，adsense能顯露廣告，解釋明白adsense能前來訪問問.不過googlebot卻不可以過訪。

　　更為奇怪的是，一個鍾頭後，也就是作者在寫這個文章前，我用谷歌網站管理職員具裡的像googlebot同樣爬取的功能測試時，竟至能爬動了，我看了一下子log紀錄，googlebot爬動了11次.這又是何故?是我寫了信的端由?google辦公擔任職務的人看見了，解決了，速率這樣高?仍然我把網址指向了我本機，又指歸來，這麼往返折騰後，又好的端由?真的想不清楚,惟一獲得的論斷是：

　　必須要小心運用robots.txt嚴禁搜索引擎網站抓取.新站沒做好前，不要讓自個兒的網址顯露出來在互聯網不論什麼地方，也不要設置嚴禁蛛蛛來爬，等網站題目結構等確認好後，再去提交處理，引蛛蛛.本個人生命歷，期望生手引以為戒。

The Blog

SEO諮詢: (852) 27208908