SEO個性化網頁權重研究

目前關於個性化PageRank,其他的常見方法還有模型化PageRank(modular PageRank)和BlockRank等。這些方法在具體的計算方法上,主要的特點體現在從效率的角度上對算法進行瞭必要的優化。

關於加速PageRank算法的先前研究內容主要使用稀疏性圖結構技術,比如Arasu等提出的觀點,他們不僅僅單純使用上次迭代循環產生值來計算本輪循環值,也使用本輪循環已經產生的值來加速本輪循環的計算。甚至提出瞭Web網絡的蝴蝶結結構,並將其用於PageRank值的有效計算中。然而這些方法並不具有很大的實用性,主要原因在於算法要求對Web網絡矩陣進行排序,這個操作需要按照深度搜索優先的原則進行網絡遍歷,這顯然是一種代價極大的運算。最近Kamvar等也提出一些算法,使用連續中間循環來推斷真實PageRank更好的估計值,但是仍然存在受PageRank算法初始參數影響的不足之處。

目前對於Web網絡圖結構的分析主要關註於研究圖的屬性,如節點的分佈、網頁鏈接的情況和Web網頁圖結構的建模等。然而,對於這些研究並沒有強調如何有效利用這些屬性來加快超鏈分析。

不少學者提出瞭一些改進做法,如Raghavan和Garcia-Molina等利用主機名稱或者URL隱含的Web結構來代表Web圖更為成功的做法也有很多,如Jeh和Widom通過有限修改網頁的權值來表達的個性化網頁權重,這個重要性權值可以反映用戶指定的初始興趣網頁。由於對個性化視圖的計算需要反復遍歷整個Web圖結構中的網頁,這隻有在運行期間才能實現,所以事先計算和存儲所有的個性化視圖並不現實。他們利用新的圖論結果和技術構建出表達個性化視圖的偏好向量(partial vector),它可以在不同用戶的個性化視圖中共享,同時關於它的計算和存儲花費與視圖數量的多少呈現出合理的比例。在計算中,還可以采用遞增式計算,這就使得在查詢期間利用偏好向量去構建個性化視圖是可行的。這個偏好向量即為個性化PageRank向量(personalized PageRank vector,PPV),通俗地說,PPV是種Web網頁的個性化視圖。按照這個PPV來對網頁結果進行排序可以有效地表達用戶的偏好。

簡單地看,每個PPV的長度都為咒,即Web的網頁數量。但是由於從一個固定的角度循環計算PPV需要多次遍歷Web網頁圖,這顯然是不可能作為一種在線響應用戶查詢的方式。從另一個角度來看,所有PPV向量的總數量會達到2n(n為網頁總數),這顯然又過於巨大而無法實現離線存儲。所以,必須將p集合中出現的網頁限制為hub網頁集合H的子集。H集合通常包含一些用戶最為感興趣的網頁。在實踐中,H集合可以是具有較高PageRank值的網頁集合(重要網頁)、在人工分類目錄中的網頁(如Yahoo和Open Directory)、特定企業或程序的重要網頁等。H集合可以看成是計算個性化的基礎。這種基於PPV的計算方式,不像傳統的方式,能夠和H集合大小成良好的比例縮放關系,並且這種技術也可以在更大的PPV集合上取得近似的效果,滿足一些對於任意偏好網頁集合的個性化計算要求。

除此以外,還有一些在計算效果上進行改進的算法。