信息過量抓取有限:談搜索引擎相關性技術

核心提示:相關性,是搜索引擎優化中的重點,主要是由搜索引擎的特點決定的。首先Web網頁數量已經達到上十億的規模,其次,搜索引擎用戶自身的檢索專業能力通常很有限。

相關性,是搜索引擎優化中的重點。但是對於相關性的搜索引擎工作原理,相信大部分的SEOER對於都缺乏瞭解。但是隻需要我們主流搜索引擎技術的方向,你就可以知道搜索引擎時代的脈搏。

相關度排序技術的產生主要是由搜索引擎的特點決定的。首先,現代搜索引擎能夠訪問的Web網頁數量已經達到上十億的規模,哪怕用戶隻是搜索其中很少的一部分內容,基於全文搜索技術的搜索引擎也能返回成千上萬的頁面。即便這些結果網頁都是用戶所需要的,用戶也沒有可能對所有的網頁瀏覽一遍,所以能夠將用戶最感興趣的結果網頁放於前面,勢必可以增強搜索引擎用戶的滿意度。其次,搜索引擎用戶自身的檢索專業能力通常很有限,在最為普遍的關鍵詞檢索行為中,用戶一般隻是鍵人幾個詞語。例如,Spink等曾對Excite等搜索引擎的近300位用戶做過實驗調查,發現人均輸入的檢索詞為3.34個。國內部分學者也有相似的結論,發現90%左右的用戶輸入的中文檢索單字為2~6個,而且2字詞居多,約占58%,其次為4字詞(約占18%)和3字詞(約占14%)。

過少的檢索詞事實上無法真正表達用戶的檢索需求,而且用戶通常也不去進行復雜的邏輯構造,隻有相當少的用戶進行佈爾邏輯檢索、限制性檢索和高級檢索等方法,僅有5.24%的檢索式中包含有佈爾邏輯算符。國內的部分學者的研究結果也表明,約40%的用戶不能正確運用字段檢索或二次檢索,80%左右的用戶不能正確運用高級檢索功能,甚至還發現用戶缺乏動力去學習復雜的檢索技能,多數用戶都寄希望於搜索引擎能夠自動地為他們構造有效的檢索式。由於缺乏過去聯機檢索中常常具備的檢索人員,因此,用戶實際的檢索行為與用戶理想的檢索行為存在事實上的差距,檢索結果的不滿意也是不奇怪的。正是由於這個特點,搜索引擎就必須設法將用戶最想要的網頁結果盡可能地放到網頁結果的前面,這就是網頁相關度排序算法在搜索引擎中為什麼非常重要的原因。

現階段的相關度排序技術主要有以下幾種:一是基於傳統信息檢索技術的方式,它主要利用關鍵詞本身在文檔中的重要程度來對文檔與用戶查詢要求的相關度做出測量,如利用網頁中關鍵詞出現的頻率和位置。一般而言,檢索出的網頁文檔中含有的查詢關鍵詞個數越多,相關性越大,並且此關鍵詞的區分度越高;同時,查詢關鍵詞如果出現在諸如標題字段等重要位置上,則比出現在正文的相關度要大。二是超鏈分析技術,使用此技術的代表性搜索引擎有Google和Baidu等。和前者相比,它以網頁被認可的重要程度作為檢索結果的相關度排序依據。從設計思想上看,它更註重第三方對該網頁的認可,如具有較大鏈入網頁數的網頁才是得到廣泛認可的重要網頁,而根據關鍵詞位置和頻率的傳統方法隻是一種網頁自我認可的形式,缺乏客觀性。最後還有一些其他方式,如由用戶自由定義排序規則的自定義方式。北京大學的天網FTP搜索引擎就采用這種排序方式,它可以讓用戶選擇諸如時間、大小、穩定性和距離等具體排序指標來對結果網頁進行相關度排序。再如收費排名模式,它作為搜索引擎的一種主要贏利手段,在具有網絡門戶特點的大型搜索引擎中廣為使用,但於擔心影響搜索結果的客觀性,這種方式不是它們的主流排序方式,而僅僅作為一個補充顯示在付費搜索欄目中。