Google副總裁泄玄機:Google搜索技術揭秘

Google副總裁泄玄機:Google搜索技術揭秘Google副總裁泄玄機:Google搜索技術揭秘- –

Google將其成功局部地歸功於企業所創造的獨有運算機制,令其搜索引擎網站可以在極瞬息間內對數以一百萬計的網絡用戶的搜索煩請供給解答。

上以星期三,Google副總裁Urs Hoelzle在Eclipse會展上的一番發言,令與會者有機緣理解Google的搜索技術是怎麼樣萌生以及該技術如今是怎麼樣運作的。

Hoelzle對與會者說,要創造Google的技術,研發者務必遺棄以往大型數值庫所運用技術的思惟定勢。因為一天裡邊全部搜索煩請的內部實質意義都是不可以預計的,因為這個手邊上就務必領有100億左右的網頁數值,這似的確曲直常大的挑戰。

Hoelzle出示了一系列早期Google硬件數值核心的照片兒。1997年拍的照片兒中是兩臺破舊的臺式電腦。1999年,是數臺Intel服務器,機器後面露出一堆污七八糟的數值線。2000年的數值核心內,安擺放置的是1000臺排列齊楚的雙處置器服務器。

Hoelzle表達,底層的硬件價錢非常低價,但卻完成了很多辦公。同時,運用這麼多的服務器,靠得住性是Google關切的另一重點。Hoelzle表達,Google運用半自動扼制的機制施行運作。否則,工程師們需求為重啟服務器而疲於奔命。

為了抗拒不可力敵帶來的影響,Google建造了Google文件系統,該系統與Google的搜索運算系統緊急接合,況且對服務器故障有頎長的承擔有經驗。

Google的全部操作均基於一系列的大容積文件,這些個文件被拆分為64M體積的數值包,散布在多個數值包服務器中。文件的描寫、數值包的數量和數值包的位置等資料都儲存安放在中央服務器中。每一個64M的數值包都會在額外兩個服務器上備案,三份復印的途徑亦儲存安放在中央服務器中。

因為全部的文件都儲存安放在Red Hat Linux服務器中,Google以很低的成本就保障了服務的靠得住性。中央服務器會定時向數值包服務器散發電子脈沖信號,確認數值包服務器是否在正常運作。假如沒有收到回答信號,又還是回答信號中顯露某臺數值包服務器的數值遭受損害到,中央服務器會從其它數值包服務器上抽取數值保修復受損的服務器。這一辦公一般在一分鍾內則可以完成。

Hoelzle指出,只有三臺服務器上的復印同時受損,纔會對Google的服務有所影響。這會兒,就需求用一段長時間去使聚在一起互聯網的數值以重建受損文件。

Google會對Web Crawler使聚在一起到的網頁施行引得, Web Crawler亦會對這些個網頁的作出描寫。Hoelzle表達,樹立網頁的引得是很困難而繁重的一項辦公,需求數百臺計算機運認真算數天。同時,引得務必常常地更新。

為了高速地對引得施行檢索,Google將其分成很多稱為碎片的小塊,散布在不一樣的服務器中,以便施行並行搜索。每一臺服務器都搜索出一小批最後結果,而後再整拼湊變成完整的解答。

Hoelzle表達,Google的文件系統、引得技術及商用服務器的網格令每一次搜索的均勻時間四分之一秒。而文件系統的定時電子脈沖信號機制,則給與Google頎長的靠得住性和可用性。

同時,當Google的服務器剖析搜索煩請的時刻,會將該搜索煩請拆分,而後再從數值庫中找出令大多用戶滿足的最後結果,這一過程稱為map reduction。Hoelzle表達,Google以前在一次大型保護不測意外中錯過了2000臺map reduction服務器中的1800臺。但因為系統的負載平衡機制,將未完成的搜索擔任的工作合理分配,Google還是能完成全部的搜索煩請。

Hoelzle指出,這一機制使我們能很快從故障中復元,並不影響我們的服務。