Google工程師 講述網頁搜索排名背後的技術

這是 Google 工程師 Amit Singhal 發表在 Google 官方博客的一篇文章,講述瞭 Google 搜索排名背後的一些技術,涉及到 Google 對網頁,對語義,對用戶意圖的理解。

Google 搜索排名的核心技術源自已有50年歷史的學術課題 Information Retrieval (IR),IR 技術使用統計學原理對文字的使用頻率等屬性進行研究並對結果進行排名。建立在 IR 理論上的 Google 搜索同時借助鏈接,網頁結構等等技術形成獨特的搜索技術。

理解網頁:

Google 多年來在網絡爬蟲與索引系統上投入巨資,因此,Google 擁有非常龐大並且是最新的網頁索引,除此之外,Google 還使用一些最新技術提高索引質量,比如,他們開發瞭一種技術,可以在字面意思之外理解一個網頁所表達的重要概念,人們使用意大利語言搜索 galleria sprovieri londra,會找到倫敦的 Sprovieri Gallery,盡管 Sprovieri Gallery 主頁上既沒有 London,也沒有 Londra 字樣。在美國,人們搜索 cool tech pc vancouver, wa,會找到 ,然而 的主頁上沒有任何文字表明他們位於 Vancouver。其它技術包括,區分一個網頁中的重要或非重要文字,以及網頁內容的新鮮度。

理解語義:

Google 可以通過用戶提供的幾個搜索關鍵詞,理解用戶的真實意圖。他們在拼寫糾正,詞義,以及概念分析方面處於非常領先的位置。很多人都或多或少體驗過 Google 的拼寫糾正功能,比如搜索 kofee annan,Google 會問你搜索的是否 kofi annan,然而,當有人搜索 kofee beans,Google 會糾正成 coffee beans。(Google 事實上已經在嘗試語義技術 – 譯者)

詞義是 Google 嘗試理解查詢語義的基礎,也是 Google 遇到的最大難題。一些在人看來顯而易見的東西,機器卻很難自動處理。用戶並不想對使用什麼詞匯進行查詢而費神,人們甚至壓根不知道該使用什麼進行查詢。在這種時候,Google 的詞義系統便可以發揮作用,詞義系統可以對查詢語句進行非常復雜的修正,比如,查詢 Dr Zhivago 的時候,Google 知道 Dr 代表 Doctor ,而查詢 Rodeo Dr 的時候,Dr 代表 Drive。用戶搜索 back bumper repair 的時候,結果是 rear bumper repair,而搜索 Ramstein ab,Google 能夠將 ab 理解成 Air Base,bb ab 會理解為 Alberta 的 Bed and Breakfasts 。Google 將這種詞義理解系統發展到上百種不同語言。

Google 在搜索排名中使用的另一項技術是概念識別,該技術可以對查詢的內容進行概念識別,比如,我們查詢 new york times square church,Google 知道我們實際上查詢的是紐約時代廣場上的那座著名教堂,而不是紐約時報中的某篇文章。概念識別技術並不止這些,Google 還對其進行加強以正確地識別語義,比如,搜索 PC and its impact on people,事實上是搜索計算機對社會的影響。Google 的搜索分析算法中這類技術比比皆是,而且面向幾乎所有語言。

理解用戶:

Google 嘗試理解用戶的目的是為用戶返回他們真正需要的結果,而不是他們在搜索語句中所說的東西。該技術基於一個世界級的本地化系統,外加先進的個性化技術,以及各種用戶意圖識別技術。

Google 對本地結果的重視體現在他們的本地化工作中。同樣一個查詢語句在不同國傢會返回不同結果,比如,查詢 bank],在美國返回的是銀行,而英國則可能是 Bank Fashion 的服裝連鎖店,或者英國的銀行,而在其它英語國傢,如澳大利亞,加拿大,新西蘭,南非,返回的則應仍舊是當地的銀行。如果你在一些非英語國傢查詢這個詞,象埃及,以色列,日本,俄羅斯,沙特,瑞士,返回的結果將更有趣。就象 Football 在美國和英國表示不同的運動項目一樣,同一個詞在不同國傢查詢的結果可能截然不同。

個性化查詢是 Google 另一項先進搜索技術,一個已經登錄的用戶,如果開通瞭 Web History 服務,隨著他查詢時間的增長,Google 會根據他的查詢歷史,自動調整返回的結果,比如,一個經常查詢 Football 相關話題的人,會逐漸從 Google 得到更多足球相關的結果。如果你青睞某個購物站返回的結果,在以後的查詢中,會從那個購物站得到更多結果。

Google 在返回用戶真正想要的結果方面的另一個例子是,假如你搜索 chevrolet magnum,我們知道 Magnum 不是 Chevrolet 產的,是 Dodge 產的,Google 會自動返回 dodge magnum 的結果。還有一個例子,有人搜索 bangalore,不僅返回 Bangalore 這個城市的主頁,而且返回 Bangalore 的地圖,以及一些與 Bangalore 市景,交通相關的視頻,這些視頻會讓你有身臨其境的感覺。

本文國際來源:/2008/07/technologies-behind-google-ranking.html

中文翻譯:COMSHARP CMS 官方網站