Google工程師解釋Googlebot抓取網頁的原理

Google的Matt Cutts確認瞭AdSense的Mediabot的確是會幫助Googlebot抓取網頁的消息,但有部分人不相信Matt Cutts,或者不相信他能代表Google官方。作為Matt Cutts的blog的一名忠實讀者,我覺得完全沒必要花費篇幅再去特別說明Matt Cutts的權威性。我想說的是,Matt Cutts在是Google品質管理部門的一名高級軟件工程師,外界所知的是他負責研發阻止Spam與惡性控制排名的技術。因此,信不信當然由你。

其實上次Matt所透露的僅僅是其中一方面的內容。今天,Matt再次寫瞭一篇非常詳細的文章,解釋瞭Google的各種bot是怎樣抓取網頁的,以及Google最新的BigDaddy在抓取網頁方面有什麼新的變化等等,內容非常的精彩,所以和大傢分享一下。

首先要介紹的是Google的crawl caching proxy(爬行緩存代理)。Matt舉瞭一個ISP與用戶的例子來說明它。用戶上網時,總是先通過ISP獲取網頁內容,然後ISP就會把用戶訪問過的網頁緩存起來備用。比如說,當用戶A訪問瞭,那麼中國電信(或網通等)就會把80後創業基地發送給用戶A,然後將80後創業基地緩存起來,當用戶B在下一秒鐘裡再訪問,那麼中國電信就會把緩存裡的幻滅的麥克風發送給用戶B,這樣就能節省瞭帶寬。

正如本站之前所報道的那樣,Google最新的軟件層面的升級(轉移至BigDaddy)已經接近完成,因此升級後的Google各方面的能力都將得到加強。這些加強包括瞭更智能化的googlebot爬行、改良的規范性以及更好的收錄網頁能力。而在Googlebot爬行抓取網頁方面,Google也采取瞭節省帶寬的方法。Googlebot也隨著BigDaddy的升級而得到瞭升級。新的Googlebot已經正式支持瞭gzip編碼,所以如果你的網站開啟瞭gzip編碼功能,那麼就能節省Googlebot爬行你的網頁時所占的帶寬。

除瞭改良的Googlebot外,升級後的Google將會采用上面所說到的crawl caching proxy來抓取網頁,以進一步節省帶寬。

創業基地SEO頻道得知:Google蜘蛛以Googlebot爬行為主,Server A指的是AdSense,而Server N則可以是Google的blogsearch或其它。我們可以看出,同一個網站,Googlebot與AdSense的Mediabot、blogsearch的bot都爬行過瞭,其中有很多重復的爬行。而升級後的Google所采用的crawl caching proxy又是怎樣的情形:

很明顯,因為crawl caching proxy將各種bot的抓取都緩存起來,因此當Googlebot已經抓取過某些網頁,而Mediabot或其它bot再次抓取重復的網頁時,crawl caching proxy就會發揮作用,直接將緩存裡的網頁返回給Mediabot等,這樣就使得實際爬行次數減少,節省瞭帶寬。

從Matt的分析可以看出,Google這樣做的確是能節省自己及網站的帶寬,好處是能讓Google的各種bot在一定的時間裡爬行更多的網頁,以方便收錄。我的理解是,雖然好處是相當明顯,但壞處也是有的。比如,當一個網站它以AdSense的廣告費為生,那麼它就需要AdSense的Mediabot不停地光臨,以分析它的更新網頁的內容,投放更相關的廣告。但當這個網站是一個PR值不錯的網站,那麼Googlebot很可能會天天都來爬行它,這樣一來,crawl caching proxy就會把Googlebot的爬行緩存起來,等Mediabot再來爬行的時候,它就直接把緩存的內容返回給Mediabot。這樣一來就減少瞭Mediabot爬行該網站的次數。由於兩種bot並不是采用完全相同的工作機制,因此這個網站有可能因此Mediabot的爬行次數的減少而使得顯示的AdSense廣告的相關性減弱。

本文來源:創業基地SEO頻道 轉載請以鏈接形式註明出處。