最權威的Google排名算法解密

說它最權威是因為是Google工程副總裁,負責排名算法的Udi Manber,發表在Google官方博客的一個帖子。下面撿主要內容翻譯一下,想看完整原文的請參考Google官方博客Google 搜索質量簡介。

搜索質量組是Google內部負責搜索結果排名的。每天Google處理無數查詢,Google需要在不到一秒的時間內從數以億計的網頁中選擇出應該返回哪些,以及以哪樣的順序顯示。

Google對排名算法一直都比較保密,主要原因有兩條:競爭及防止被濫用。

Google排名算法的細節是Google皇冠上的珍珠,我們以它為傲,並且非常註意保護。但是完全保密有時候也不是理想狀況,所以Udi Manber等人決定與站長多溝通,談一談有什麼新鮮事,解釋一些老的內容,給點建議,參與對話等。這篇帖子是第一篇,以後還會有其他內容。

這個部門的心臟是核心排名小組。排名是相當困難的,比大部分人所想象的更困難。其中一個原因是語言都是模棱兩可的,文件也沒有任何規則,怎樣理解信息沒有標準。所以我們需要理解任何人,因為任何原因所寫的任何網頁。這隻是一部分。我們還需要理解用戶的查詢,再將查詢投射到我們所理解的文件上。更不要說不同的人有不同的需求。而且我們需要在幾毫秒之內完成這一切。

Google排名算法最出名的部分就是PageRank。PR現在還在使用中,不過已經是一個更大的一系統中的一部分。其他部分還包括語言模塊(處理短語,同義詞,方言,拼寫錯誤等的能力),查詢模塊(不僅僅是語言,還包括人們怎樣使用語言),時間模塊(有的查詢返回一個30分鐘前剛創作的網頁最合適,有的時候返回已經存在很長時間的網頁更合適),個性化模塊(不是每個人都需要相同的東西)。

另外一個組負責評估我們做的怎樣。目標是改善用戶體驗,這不是主要目標,而是唯一的目標。有每分鐘進行的自動評估,階段性整體質量評估,更重要的還有個別算法調整的評估。當某個工程師有個好主意,開發一個新算法後,我們對這個主意進行測試。一組統計學傢會檢查數據,確定這個新主意的價值。

2007年,我們做瞭450次以上的調整,差不多每個星期9次。比如今年1月份,我們對PR算法做瞭大幅調整。大多數時間我們都是尋找相關性改善的方法,有時我們也致力於簡化算法,簡單就是好的。(Zac的註釋:關於簡化算法這句話,是緊接著PR算法調整之後說的,不確認他是講簡化瞭PR算法,還是說籠統的對算法的簡化。我的感覺是PR算法確實有瞭很大的改變。給我的感覺是,基本上給我們看的工具條PR是不準的,尤其很多該有PR值得內頁顯示PR為零。也許這就是Udi Manber所說的算法簡化造成的。)

在過去兩年中,國際搜索是我們的主要焦點之一,包括所有的語言,而不僅限於主要語言。

另外一個小組專門負責新功能和用戶界面。Google的用戶搜索界面相當簡單,當我們增加新功能時,盡量確保對用戶來說是簡單易用的。在過去一年中,主要的改變包括通用搜索,Google Notebooks,自定義搜索引擎以及iGoogle的改進。用戶界面小組有一組易用性專傢,在輔助研究用戶及評估新功能。

還有一個小組專註於反垃圾和其他各種被濫用的技巧,這也就是Matt Cutts所負責的小組。這個組識別新的垃圾技術,並且以可擴展的方式克服這些垃圾。和其他組一樣,這個組也是要處理國際多語種。反垃圾組與Google站長工具組緊密配合。

還有其他專門的項目組。整體來說我們的組織結構相當非正式,人員調動頻繁,新項目也隨時開始。