Google搜索引擎原理

這篇文章中,我們介紹瞭google,它是一個大型的搜索引擎(of a large-scale search engine)的原型,搜索引擎在超文本中應用廣泛。Google的設計能夠高效地抓網頁並建立索引,它的查詢結果比其它現有系統都高明。這個原型的全文和超連接的數據庫至少包含24′000′000個網頁。我們可以從域名。到1997年,超過瞭60%。同時,搜索引擎從學術領域走進商業。到現在大多數搜索引擎被公司所有,很少技公開術細節。這就導致搜索引擎技術很大程度上仍然是暗箱操作,並傾向做廣告(見附錄A)。Google的主要目標是推動學術領域在此方面的發展,和對它的瞭解。另一個設計目標是給大傢一個實用的系統。應用對我們來說非常重要,因為現代網絡系統中存在大量的有用數據(us because we think some of the most interesting research will involve leveraging the vast amount of usage data that is available from modern web systems)。例如,每天有幾千萬個研究。然而,得到這些數據卻非常困難,主要因為它們沒有商業價值。我們最後的設計目標是建立一個體系結構能夠支持新的關於海量Web數據的研究。為瞭支持新研究,Google以壓縮的形式保存瞭實際所抓到的文檔。設計google的目標之一就是要建立一個環境使其他研究者能夠很快進入這個領域,處理海量Web數據,得到滿意的結果,而通過其它方法卻很難得到結果。系統在短時間內被建立起來,已經有幾篇論文用到瞭 Google建的數據庫,更多的在起步中。我們的另一個目標是建立一個宇宙空間實驗室似的環境,在這裡研究者甚至學生都可以對我們的海量Web數據設計或做一些實驗。