谷歌排序身後的技術

  了解查問網站關鍵詞:了解我們的用戶在尋覓啥子(而不止只是幾個查問詞)十分關鍵。在這一領域我們獲得了幾個值當注意的進步提高,涵蓋最優拼音書寫提議系統,先進的近義詞系統,以及堅強雄厚的概念剖析系統。

  在我上一篇文章裡,我已經紹介了關於谷歌搜索排序的哲學。作為我們研究討論搜索品質的盡力盡量的一小批,我要向大家紹介更多的谷歌搜索排序身後的技術。我們的名次系統的中心技術源於學術領域的機密檢索學。機密檢索學對搜索的研討已有近 50 年的歷史了。它應用字符冒尖性的計數訊息,例破讀符頻率什麼的,來完成網頁排序(可參考現代機密檢索: 綱要紹介來迅速理解機密檢索技術)。機密檢索學為我們供給了一個堅實的基礎,在此基礎上我們應用最常過訪鏈接、網頁結構以及其它創新技術樹立起了一個極大系統。

  在以往十年,搜索已經從給我我所謂進展到給我我想要的。用戶對搜索的希望沒有疑問已經增長。我們盡力盡量辦公以達到每個用戶的希望,為了這一點兒,我們需求更好的了解網頁,了解查問,了解用戶。在上個十年裡,我們已經將了解以上三個局部(在搜索過程中)的技術推到一個全新的層級。

  在谷歌,當我們商議查問網站關鍵詞的時刻,我運用方括號[ ]來標記最著手和最終的查問詞(請參照 Fred.ren 的怎麼樣輸入查問網站關鍵詞),在本文中我將自始至終運用這一標記。(網頁和搜索最後結果次數多變動,因為這個,本文舉例的詮釋或許與立即查問的最後結果不同。)

  了解網頁:積年來我們在抓取和引得系統上投入了數量多精神力。因為這個,我們領有一個十分極大、更新趁早的引得。除開規模和更新,我們還用其它辦法改進引得。我們用於了解網頁的中心技術之一就是了解這個網頁要表現的有關的關緊概念的有經驗,縱然這個概念在網頁中並沒有處於表面化的位置。譬如,縱然倫敦 Sprovieri Gallery 的官方網頁中沒有顯露出來 London 或 Londra 的字眼,不過我們依舊能夠在搜索最後結果中給意大利語查問 [galleria sprovieri londra] 供給 Sprovieri Gallery 的官方網頁。在美國,一個用戶搜索 [cool tech pc vancouver, wa],將找到 主頁,縱然這個網頁沒有在不論什麼一個地方提到它們在 Vancouver,WA。我們研發的另一點技術譬如在網頁中區別關緊與次關緊字符以及信息的新奇程度。

  了解查問網站關鍵詞:了解我們的用戶在尋覓啥子(而不止只是幾個查問詞)十分關鍵。在這一領域我們獲得了幾個值當注意的進步提高,涵蓋最優拼音書寫提議系統,先進的近義詞系統,以及堅強雄厚的概念剖析系統。

  絕大部分數用戶已都以前用過我們的拼音書寫提議系統。當有人輸入 [kofee annan] 時我們就會曉得他實際在搜索 Mr. Kofi Annan,系統會迅即提醒:Did you mean: kofi annan;不過,有人搜索 [kofee beans] 其實就是在搜索咖啡豆。在全世界范圍裡都做到頎長的非常准確度是艱難的,但我們做得不賴。

  近義詞是我們了解查問詞的基礎。這也是我們正在為谷歌解決的最難題之一。固然有時候對許多人來說是很容易了解的詞,但對於半自動語言處置系統來講卻是尚未解決的困難的問題。作為一個用戶,我沒想到為我的查問中運用啥子辭匯思索問題非常多。一般我甚至於不曉得准確的詞是啥子。這就是我們的近義詞系統施展效用的時刻。我們的近義詞系統可施行精確的查問修正,例如,我們的系統曉得,單詞Dr在查問 [Dr Zhivago] 時期表醫生,但在 [Rodeo Dr] 中代表操縱。一個用戶查問 [back bumper repair] 時獲得的最後結果是後擔保杠修理。對於 [Ramstein ab],我們會半自動查問 Ramstein 空軍基地;輸入 [b&b ab],我們會搜索加拿大阿爾伯塔的住宿加早餐旅館。我們已經研發了能夠了解相差無幾 100 種不一樣語言的這一級別的近義詞查問,對此我引以為傲。

  概念辨別是我們應用於搜索排序系統的另一項技術。辨別查問中關鍵概念幫忙我們供給更有關的搜索最後結果。例如,在我們的算法能夠了解在 [new york times square church] 查問中,用戶正在搜索時期廣場上聞名的教堂,而不是在紐約時報上搜索文章。我們不會僅只稽留在辨別概念階段;我們會進一步用准確概念鞏固查問,譬如,有人查問 [PC and its impact on people],其實是在查問計算機對社會形態的影響,或是有人輸入 [rainforest instructional activities for vocabulary],其實是seo到處尋找雨林教案。我們的查問剖析算法裡面含有很多諸這麼類的技術,並且,我們在全世界范圍為相差無幾每一種語言上供給這一服務。

  了解用戶:我們盡力盡量了解用戶的意向,期於反饋許多人真正想要的,而不止只是它們在查問中所謂。這項辦公著手於一項全世界范圍的本土化系統,在這個系統中增加了我們的先進的個性化技術,以及我們有理解用戶方面獲得進步提高的幾項技術,例如整合搜索。

  我們的明確的目的是 為全世界用戶供給有關性最強的本土搜索服務,這反映在我們的本土化進程項中。在不一樣國度輸入一樣的查問有可能萌生絕對不一樣的搜索最後結果。一位用戶在美國輸入 [bank] 應當搜到美國的銀行,而在英國的用戶也許搜到銀行授信額數或英國金融機構。在其它說英語的國度,譬如澳大利亞、加拿大、新西蘭、非洲南部,對此查問的搜索最後結果應當是當地的金融機構。當許多人在一點非英語國度如埃及、以色列、東洋、俄國、沙特阿拉伯、瑞士輸入這一查問時,事物就變得十分有趣兒了。一樣,查問 [football] 在澳大利亞、英國、美國家大計指絕對不一樣的體育運動項目。這些個例子奉告我們怎麼樣准確取得一個一樣的概念的本土化版本。無論怎樣,一樣的查問在不一樣國度會有絕對不一樣的最後結果。舉例解釋明白,[Côte d’Or] 是法國的一個地理區——不過在鄰近的說法語的比利時,它卻是一家非常大的chocolate出產商的姓名。一樣地,我們給出了准確的搜索最後結果:-)。

  個性化是我們的搜索系統的另一個不肯低頭,即為各個用戶定制搜索最後結果。在搜索時已經登錄以及標記了網頁史冊的用戶將獲得比普通的谷歌搜索更貼近意向的最後結果。例如,一名數量多查問足球有關搜索的用戶輸入 [giants] 特殊情況獲得更多與足球相關的搜索最後結果,而其它用戶有可能會獲得與棒球隊有關的搜索最後結果。一樣,假如你傾向於一家特別指定的購物網站的信息,在你搜索商品時,你會更可能獲得來自這個網站的搜索最後結果。我們的調查顯露,取得個性化搜索最後結果的用戶會發覺這些個最後結果比非個性化搜索最後結果有關性更強。

  了解用戶意向的另一個例子是查問 [div]。div之家 其實中國W3C標准帶頭提倡及推廣者。所以我們在搜索最後結果集中給出了div之家的搜索最後結果。

  我們在整合搜索領域所做的辦公也是我們怎麼樣解讀用戶意向,給與它們真正需求的最後結果的另一個例證。當有人搜索 [bangalore] 時,它們將不止取得關緊的頁面,它們一樣將取得一個班加羅爾的地圖,一段展覽街道生存的視頻文件,城市交通等等——特意的看那段視頻文件時,我幾乎感到自個兒就在那邊:-)——在寫文章的時刻,還會有相關班加羅爾的新聞以及有關的博客。

  最終讓我簡單扼要紹介一下子我們在搜索技術上的最新發展:跨語言信息檢索。它准許用戶首先搜索到非本國語言的信息,而後運用谷歌移譯技術將頁面移譯過來,我們要得這些個信息很容易取得。我把這一創新叫做:給我我想要的不論什麼語言的解答。一個正在俄國搜索托尼•布萊爾私人傳記的用戶輸入俄文 [Тони Блэр биография],在我們的英文搜索最後結果底端將顯露:

  一樣地,一個在埃及搜索迪斯尼電影歌曲的用戶輸入 [أغاني أفلام ديزني] 將取得在英文頁面中的搜索最後結果。讓我們興奮的是,跨語言信息檢索讓我們離我們的目的更接近,讓我們能夠團體全世界信息,真正達到信息在世界范圍內的相互溝通與可用。

  我將接著展覽我們為了盡有可能地優化搜索排序系統而研發的的可以稱作藝術品的技術,但事情的真實情況上,搜索還遠不是一個已經解決的問題。很多谷歌查問還是沒有獲得滿足最後結果,而每一個這麼的查問都是改進我們的排序系統的機緣。我很自信,我們的團隊已經研發了很多技術,我們將在不長的日後使我們的排序算法獲得更大進步提高。

  我期望,我的關於谷歌搜索排序的兩篇文章已經明白地顯露,我們為搜索而生,我們比過去更飽含殷勤。我們為全世界用戶服務的殷勤是前所未有的。我們為自個兒在運轉一個十分好的搜索排序系統而自豪,我們將每日盡力盡量辦公,讓它變得更好。