SEO Google算法解析系列之正題敏銳的PageRank算法

SEO Google算法解析系列之正題敏銳的PageRank算法

為了增長查問最後結果的正題有關性,2002年斯坦福大學的Taher Haveliwala提出了正題敏銳的Pagerank算法TSPR,如今是Google名次的中心算法之一。

不管Pagerank、HITs甚至於HillTop算 法都存在正題漂移問題,尤其對於發瘋而又隨心交互外鏈的站點,造成搜索引擎網站回返正題無關最後結果,搜索引擎網站用戶體驗認識很差。而TSPR吸收了早期研發目次 (ODP,如Yahoo,Dmoz等)的思想並接合PageRank算法:針對一個查問來確認一個URL對該查問的正題敏銳性得分,作為名次的一個關緊依 據,大大增長了回返最後結果的正題有關性。

TSPR算法主要分為兩個過程:

第1過程針對URL離線生成Rank矢量,這個過程是基於開放目次的,以Dmoz為例,中國交通工具消費網的首頁 URL在Open Directory – World: Chinese Simplified: 休閑: 交通工具這個正題(這處如果為Cj)裡,如果該頁面上的非所屬URL數為L個,那末中國交通工具消費網的URL對正題Cj的得分(Ranki)為1/L,因為中國交通工具消費網的URL有可能顯露出來在多個正題目次中(對於正題目次頁面中沒有該URL,天然得分就為0),那末選取TOP N個正題得分,組成這個URL的Rank矢量。

第二個過程就是在線生成針對查問網站關鍵詞的URL的正題敏銳性得分,(1).首先計算一個查問是某一正題的有可能性與敏銳性得分,和HillTop算法同樣, 將一個查問分為k個專門用語(term),依據素朴貝葉斯分類器(機器學習與數值開鑿常用的一種算術辦法,這處不詳細述),計算該查問是某一正題的幾率,以汽 車消費為例,分為交通工具和消費兩個專門用語歸屬Cj正題的幾率為0.8和0.1,那末該查問為Cj正題的有可能性為P(Cj)*0.08 (那裡面P(Cj)也是一個幾率,也可以作為個性化參變量,如表達用戶對正題Cj的偏好程度);(2).而後計算針對該查問和正題Cj時中國交通工具消費網的URL的敏銳性得分,該得分為TSPRj=Ranki*P(Cj)*0.08,那末的針對交通工具消費這個查問,315che的URL針對交通工具消費這個查問的敏銳性得分等於上面所說的全部正題中TOP N個TSPRj得分之和(實際上也就是第1個過程Rank矢量與該查問歸屬TOP N個Cj幾率矢量的點積)。

TSPR算法的總體過程如上所述,簡單的說,對於一個查問,計算一個URL對該查問的正題敏銳性得分是倚賴於開放目次的。足見Google對開放目次的看得起。

總結概括:1.一個網站的被開放目次收錄曲直常關緊的,是其在一點正題性網站關鍵詞查問取得較好Google名次的保障,而這類網站關鍵詞普通都是熱門兒網站關鍵詞,是網站 的立身 之本。2.從第1個過程可以看出,一個正題的網站越多,每個網站的敏銳性得分便會越小,從第二個過程可以看出一個網站被越多的正題收錄,敏銳性的就越高, 顯然被越多的開放目次收錄,正題敏銳性就越高。所以挑選合宜正題,讓盡力多的開放目次收錄可以增長關緊頁面的正題敏銳性得分。