基於關鍵詞的網頁權重方法研究

利用關鍵詞序列得到的用戶事務模式經過聚類以後,形成瞭表達用戶個性化信息需求的不同模式特征。和關鍵詞序列相比,聚類後的用戶事務模式顯然具有更少的數量和更明確的個性化特征,所以使用此用戶事務聚類模式就可以進行下一步的個性化信息推薦活動。

目前搜索引擎中常見的個性化信息推薦方式主要有兩種:一種是查詢改進;一種是個性化網頁權重。前者主要是利用改變用戶實際搜索的關鍵詞內容來表達用戶的個性化信息需求,而後者主要是根據網頁權重對結果網頁進行排序來表達用戶的個性化信息需求。基於個性化網頁權重的推薦方法和基於查詢改進的推薦方法相比,具有很多優勢,主要表現在以下幾個方面:

一是經過實踐證明,諸如PageRank等網頁權重值是一種較為有效反映網頁客觀重要性的指標,同時相應算法具有技術易行性。

二是算法主要解決瞭網頁客觀重要性的評價問題,可以在網頁相關度排序上發揮作用。也就是說,該算法能夠將滿足用戶個性化要求的網頁放在結果網頁集合的最前端。事實上,這更有助於用戶得到所需的個性化信息。

最後,相關的網頁權重計算工作無需在線進行,隻需利用離線階段的存儲數據即可計算,從而能夠有效節省用戶查詢所需要的時間開銷。

基於個性化網頁權重的推薦算法思想是在傳統的網頁權重算法基礎之上,通過合理地修改和添加其中使用的具體參數,以表達不同用戶的個性化需求特征,從而計算出不同用戶所特有的網頁權重值,並在用戶查詢時,利用這個值來計算網頁的相關度和優先級。

較為常見的個性化網頁權重方式為個性化PageRank方法。傳統的PageRank是一種用於查詢結果網頁的相關度排序技術,它通過網頁問的鏈人和鏈出關系來計算不同網頁的權重值,並據此來實現網頁排序。這種算法目前已有多種衍生類型,主要目的都是著眼於對結果做進一步的信息表達。其中,最為常見的做法是使用個性化PageRank向量來表達不同用戶的個性化信息需求,並使用此向量計算網頁的相關度,從而產生針對特定用戶的個性化搜索結果。

個性化PageRank算法主要依據個性化PageRank向量來使結果網頁產生對特定用戶的偏好特性。其中,很多算法都是以基於Web的圖論算法為基礎的,最為常見的模型有馬爾可夫模型等。對於馬爾可夫模型,人們已經提出瞭很多不同的具體類型,如一階馬爾可夫鏈模型、高階馬爾可夫鏈模型和混合馬爾可夫鏈模型等。其中,一階馬爾可夫鏈模型雖然能對序列依賴給出一個簡單的描述方法,但是它沒有考慮網絡沖浪行為的長效記憶特征;高階馬爾可夫鏈模型能夠更加準確地預測導航路徑,但是它也會隨著維度增多而產生覆蓋度和計算復雜性的權衡問題,且這種復雜模型通常要求相當大的訓練集;混合馬爾可夫鏈模型組合瞭各階的馬爾可夫模型,在預處理和訓練的時候也需要更多的資源。

顯然,此處的算法和選用的模型是相關的,要根據對簡易性和正確性的權衡情況來決定所選模型類型,甚至是一些其他模型,這些其他模型多半采用基於樹狀導航圖結構的數據挖掘算法,如聚類、序列模型挖掘、頻繁項挖掘等。

現在人們提出的個性化PageRank方法雖然有很多,但是主要分為兩大類:一類是直接修改基於超鏈關系得到的網頁權重值;另一類是在傳統PageRank公式上添加修正參數來反映用戶的個性化要求。(思億歐網絡科技.cn)