深度分析 谷歌搜索引擎蜘蛛等級那些事兒

一、GOOGLE搜索引擎蜘蛛的等級

首先先談下GOOGLE蜘蛛起源。

當GOOGLE搜索引擎剛建立之初,就擁有這一個非常強大的的服務器,其每天放出大量的蜘蛛,我們稱為1號蜘蛛,其抓取量抓取速度是非常的快,對其整個互聯網每天進行信息進行的采集,可見服務器的速度是多少快,其實最主要的是後期GOOGLE將服務器延伸到瞭很多城市,所以現在你能發現GOOGLE的運算速率是超前的快。

服務器將采集的信息分類,整理到龐大的數據庫。其中有個數據庫都是用來存網站域名的。域名隻要被搜索引擎索引到,將自動存入此數據庫。此數據庫是1號蜘蛛的核心。

其內部分為10個PR各等級的小數據庫,雖說小數據庫,但也是大的可怕。10個等級的數據庫 其周期也不同,基本上以一個PR=4的網站來講 1號蜘蛛爬行的概率也在7天一次。所以基本你也會發現收錄有大的幅度也是在7天內的某一天 。

細心的站長會發現其實有時候7天還是蠻準的,但隻針對PR=4。越是PR高其周期越是短,越是PR低周期越長,當然說到這很多站長有這樣的疑惑。會覺得蜘蛛有時天天收錄他的站這裡對其收錄的也就是接下來要說的2號蜘蛛,2號蜘蛛往往是在1號蜘蛛爬行過程中放出去的,主要針對於被1號蜘蛛爬過的網站的外部鏈接。PS既然都說是2號蜘蛛 肯定其抓取力度要比1號小很多。

二、當然不隻是有2號,還有3號蜘蛛

所謂3號也就 A站1號蜘蛛爬行到B站,B站的2號蜘蛛爬行到C站。

目前GOOGLE為瞭限制其無限的循環對於蜘蛛隻分為這三個等級。並對其等級的抓取率有個很明確的標準,而且2號與3號蜘蛛有個抓取特點 基本以時間的先後順序進行抓取。

三、 比方講

A網站被1號蜘蛛爬行後的一篇文章最後時間為 2008-12-12,那當A網站被從別的網站過來的2號蜘蛛給爬行,首先有可能會對其收錄的是,最近發表的幾篇文章如: 2008-5-31等 2008-5-30等文章將會進行第2次,第3次的訪問,之後再爬行2008-12-12以後的信息。如果你網站沒有任何更新,它將對其近一個月內的更改內容進行2次爬行。

如果外部來的2號與3號蜘蛛越多,同一篇文章有可能會被爬上好幾次。

以下為GOOGLE提供的官方數據。