PageRank-Google的決定式網頁名次

PageRank-Google的決定式網頁名次大家有可能聽說過,Google 革命性的創造是它名為 『Page Rank』 的網頁名次算法,這項技術徹底解決了搜索最後結果排序的問題。實際上最先打算給互聯網上的很多網站排序的並不是 Google。Yahoo! 企業起初第1個用目次分類的形式讓用戶經過互聯網檢索信息,但因為當初計算機容積和速度的限止,當初的 Yahoo! 和同時期的其他搜索引擎網站都存在一個並肩的問題: 收錄的網頁太少,並且只能對網頁中等見內部實質意義有關的實際用詞施行引得。

大家有可能聽說過,Google 革命性的創造是它名為 『Page Rank』 的網頁名次算法,這項技術徹底解決了搜索最後結果排序的問題。實際上最先打算給互聯網上的很多網站排序的並不是 Google。Yahoo! 企業起初第1個用目次分類的形式讓用戶經過互聯網檢索信息,但因為當初計算機容積和速度的限止,當初的 Yahoo! 和同時期的其他搜索引擎網站都存在一個並肩的問題: 收錄的網頁太少,並且只能對網頁中等見內部實質意義有關的實際用詞施行引得。那時,用戶很難找到很有關信息。我想的起來 1999 年曾經查尋一篇論文,要換好幾個搜索引擎網站。後來 DEC 企業研發了 AltaVista 搜索引擎網站,只用一臺 ALPHA 服務器,卻收錄了比過去引擎都多的網頁,並且對裡邊的每個詞施行引得。AltaVista 固然讓用戶搜索到數量多最後結果,但大多最後結果卻與查問不太有關,有時候找想看的網頁需求翻好幾頁。所以起初的 AltaVista 在一定程度上解決了遮蓋率的問題,但不可以美好地對最後結果施行排序。

Google 的 『Page Rank』 (網頁名次)是怎麼回事呢?實際上簡單說就是人民有參與國事的權利決定。打個比喻,如果我們要找李開復博士,有一百私人舉手說自個兒是李開復。那末誰是實在呢?或許有好幾個實在,但縱然這麼誰又是大家真正想找的呢?:-) 假如大家都說在 Google 企業的那一個是實在,那末他就是實在。

在互聯網上,假如一個網頁被眾多其他網頁所鏈接,解釋明白它遭受存在廣泛的承認和信任,那末它的名次就高。這就是 Page Rank 的核主意想。 當然 Google 的 Page Rank 算法其實要復雜得多。譬如說,對來自不一樣網頁的鏈接看待不一樣,本身網頁名次高的鏈接更靠得住,於是給這些個鏈接予較大的權重。Page Rank 思索問題了這個因素,可是如今問題又來了,計算搜索最後結果的網頁名次過程中需求用到網頁本身的名次,這不了了先有雞仍然先有蛋的問題了嗎?

Google 的兩個初創人拉裡•佩奇 (Larry Page )和謝爾蓋•布林 (Sergey Brin) 把這個問題成為了一個二維矩陣相乘的問題,況且用迭代的辦法解決了這個問題。它們先假定全部網頁的名次是相同的,況且依據這個起初值,算出各個網頁的首次迭代名次,而後再依據首次迭代名次算出第二次的名次。它們兩人從理論上證實了無論起初值怎麼樣選取,這種算法都保障了網頁名次的估計值能收斂到它們的真實值。值當一提的事,這種算法是絕對沒有不論什麼人工過問的。

理論問題目解釋題決了,又碰到實際問題。由於互聯網上網頁的數目是很大的,上頭提到的二維矩陣從理論上講有網頁數量平方之多個元素。假如我們假定有十億個網頁,那末這個矩陣 就有一百億億個元素。這麼大的矩陣相乘,計算量是很大的。拉裡和謝爾蓋兩人利用稀疏矩陣計算的技法,大大的簡化了計算量,並成功實現了這個網頁名次算法。今日 Google 的工程師把這個算法移植到並行的計算機中,進一步縮減了計算時間,使網頁更新的周期比曾經短了很多。

我來 Google 後,拉裡 (Larry) 在和我們幾個新職員座談時,講起他當年和謝爾蓋(Sergey) 是怎麼想到網頁名次算法的。他說:”當初我們感到整個兒互聯網就像一誇大的圖 (Graph),每個網站就像一個節點,而每個網頁的鏈接就像一個弧。我想,互聯網可以用一個圖還是矩陣描寫,我或許可以用這個發覺做個博士論文。” 他和謝爾蓋就這麼創造了 Page Rank 的算法。

網頁名次的高超之居於於它把整個兒互聯網當作了一個群體看待。它無認識中合乎了系統論的觀點。相形之下,曾經的信息檢索大部分把每一個網頁當作獨立的個體看待,眾多人當時只注意了網頁內部實質意義和查問語句的有關性,疏忽了網頁之間的關系。

今日,Google 搜索引擎網站比起初復雜、完備了很多。不過網頁名次在 Google 全部算法中依舊是至關關緊的。在學術界, 這個算法被公覺得是文獻檢索中最大的貢獻之一,況且被眾多大學引入了信息檢索課程 (Information Retrieval) 的教程。