從搜索引擎網站蛛蛛過訪日記 看蛛蛛過訪規律

  為了更好的仔細查看網站被蛛蛛爬動的規律,我租用的服務器又沒有供給過訪日記,無可奈何,花了不不多時間編著了一個基於PHP的專門剖析蛛蛛爬動紀錄的手續,通過三個月的對幾個目的網站的仔細查看,得出以下幾個小經驗給大家分享,當然,因研討有限,肯定有不充足的或不正確的地方,請大家不要向我扔碎磚啊。

  一、百度蛛蛛

  這時期我上了兩個新網站,發覺,百度蛛蛛普通一到三天就可以爬動到首頁,著手更新很猛,大約會連續不斷兩天到一個星期,三天後就可以在百度中site到首頁,固然百度蛛蛛爬動了上萬個頁面,但往往只會收錄幾個頁面,兩個星期在這以後,百度將每日只抓取一兩次首頁,其他頁面很少抓取,這個過程會連續不斷時期,長的是幾個月,短的幾天。但百度在這seo段時間裡收錄量會有所增加。這段時間 有可能是考察期吧。在這段時間裡,我的一個站被百度K了,蛛蛛也就不來了。過了這個時間段後,百度蛛蛛過訪將趨於牢穩,我有兩個站百度每日都只來抓取200到300次,收錄量變動半大。而我另一個站 shop.hhbmw.com 有可能由於外鏈較多,百度蛛蛛來得相對較勤,近一個月來,每日前來訪問2萬到8萬次左右,撩動比較大,然而,site一下子,百度收錄量並不高,這有可能要到下次百度大更新時能力反響最後結果。

  百度蛛蛛過訪目的網頁時,會把URL中的中文編碼字符改換成中文,(如 http://shop.hhbmw.com/proview/百分之百E9百分之百99百分之百86百分之百E5百分之百BB百分之百BA百分之百E5百分之百86百分之百9B88/6c318ea2660bcc4b73b220e16edf96b3.htm 會成為 http://shop.hhbmw.com/proview/陸建軍88/6c318ea2660bcc4b73b220e16edf96b3.htm ,即百分之百E9百分之百99百分之百86百分之百E5百分之百BB百分之百BA百分之百E5百分之百86百分之百9B88 改換成了陸建軍88),這麼便會顯露出來一個問題了,假如主機對漢字URL支持非常不好,有可能會影響百度的收錄。

  百度蛛蛛過訪某個站點時,其過訪也有一定的規律,不少都是按中文的音序前來訪問問的。

  二、谷歌蛛蛛

  谷歌蛛蛛對新網站發覺的速度很快,但收錄相對平安穩當,每日的抓取的頁面數也比較牢穩,PR越高,外鏈越多的網站更新越快。與之相反,GOOGLE PR低的網站更新較慢。

  三、搜捭、搜狗、有道蛛蛛

  更新比較快,但不太牢穩,每日的過訪撩動也比較大,比百度更難捉摸,我有個站被搜搜和搜狗都K得只剩首頁了。

  四、雅虎、MSN

  雅虎的更新快,但收錄少,MSN的更新極慢。

  對於robots.txt的支持,百度、谷歌、搜捭、搜狗、雅虎、MSN等的蛛蛛支持度比較好,對robots的Crawl-delay 語法也能美好的支持。

  而有道蛛蛛基本上不理會robots.txt 的Crawl-delay 語法。

  附今日的過訪日記截圖: