從搜索引擎網站蛛蛛過訪日記看蛛蛛過訪規律

　　為了更好的仔細查看網站被蛛蛛爬動的規律，我租用的服務器又沒有供給過訪日記，無可奈何，花了不不多時間編著了一個基於PHP的專門剖析蛛蛛爬動紀錄的手續，通過三個月的對幾個目的網站的仔細查看，得出以下幾個小經驗給大家分享，當然，因研討有限，肯定有不充足的或不正確的地方，請大家不要向我扔碎磚啊。

　　一、百度蛛蛛

　　這時期我上了兩個新網站，發覺，百度蛛蛛普通一到三天就可以爬動到首頁，著手更新很猛，大約會連續不斷兩天到一個星期，三天後就可以在百度中site到首頁，固然百度蛛蛛爬動了上萬個頁面，但往往只會收錄幾個頁面，兩個星期在這以後，百度將每日只抓取一兩次首頁，其他頁面很少抓取，這個過程會連續不斷時期，長的是幾個月，短的幾天。但百度在這seo段時間裡收錄量會有所增加。這段時間有可能是考察期吧。在這段時間裡，我的一個站被百度K了，蛛蛛也就不來了。過了這個時間段後，百度蛛蛛過訪將趨於牢穩，我有兩個站百度每日都只來抓取200到300次，收錄量變動半大。而我另一個站 shop.hhbmw.com 有可能由於外鏈較多，百度蛛蛛來得相對較勤，近一個月來，每日前來訪問2萬到8萬次左右，撩動比較大，然而，site一下子，百度收錄量並不高，這有可能要到下次百度大更新時能力反響最後結果。

　　百度蛛蛛過訪目的網頁時，會把URL中的中文編碼字符改換成中文，(如 http://shop.hhbmw.com/proview/百分之百E9百分之百99百分之百86百分之百E5百分之百BB百分之百BA百分之百E5百分之百86百分之百9B88/6c318ea2660bcc4b73b220e16edf96b3.htm 會成為 http://shop.hhbmw.com/proview/陸建軍88/6c318ea2660bcc4b73b220e16edf96b3.htm ，即百分之百E9百分之百99百分之百86百分之百E5百分之百BB百分之百BA百分之百E5百分之百86百分之百9B88 改換成了陸建軍88)，這麼便會顯露出來一個問題了，假如主機對漢字URL支持非常不好，有可能會影響百度的收錄。

　　百度蛛蛛過訪某個站點時，其過訪也有一定的規律，不少都是按中文的音序前來訪問問的。

　　二、谷歌蛛蛛

　　谷歌蛛蛛對新網站發覺的速度很快，但收錄相對平安穩當，每日的抓取的頁面數也比較牢穩，PR越高，外鏈越多的網站更新越快。與之相反，GOOGLE PR低的網站更新較慢。

　　三、搜捭、搜狗、有道蛛蛛

　　更新比較快，但不太牢穩，每日的過訪撩動也比較大，比百度更難捉摸，我有個站被搜搜和搜狗都K得只剩首頁了。

　　四、雅虎、MSN

　　雅虎的更新快，但收錄少，MSN的更新極慢。

　　對於robots.txt的支持，百度、谷歌、搜捭、搜狗、雅虎、MSN等的蛛蛛支持度比較好，對robots的Crawl-delay 語法也能美好的支持。

　　而有道蛛蛛基本上不理會robots.txt 的Crawl-delay 語法。

　　附今日的過訪日記截圖：

The Blog

SEO諮詢: (852) 27208908