SEO Google算法解析系列之HillTop算法

上一篇我們介紹瞭潛在語義索引(LSI),今天我們將介紹超鏈分析的顛峰之作:HillTop算法,作為現在Google現在最核心的排名算法之一,網上不乏大量介紹她的文獻。本文側重於原始算法的分析,不考慮過多復雜因素,讓您更容易理解算法本質。

HillTop算法集PageRank,HITs、相關性算法大成於一身,由康柏系統研究中心的Krishna Bharat和多倫多大學的George A.Mihaila在2001年提出並申請瞭專利,後授權於Google,2003年12月Google算法更新,其成為Google核心排名算法之一。

HillTop是一種查詢相關性鏈接分析算法,克服瞭的PageRank的查詢無關性的缺點。簡單的說HillTop算法是針對熱門查詢關鍵詞來對搜索結果重新排序的一種算法。之所以針對熱門關鍵詞,這是因為HillTop算法運行效率較低的原因。算法主要分為兩個過程:

一、 專傢頁面的尋找和評分;搜索引擎根據用戶查詢日志發現熱門關鍵詞後,開始針對這些熱門關鍵詞尋找專傢頁面,成為專傢頁的2個必要因素,1)必須擁有足夠多而且不存在隸屬關系的出鏈,2)至少存在一個短語包含該熱門關鍵詞的所有術語。確定專傢頁以後,在該頁面上找出所有全部包含熱門關鍵詞中術語、或者差1到2兩個術語的短語,將這些短語分為三個等級,分別為全部包含,差1個和差2個術語,分別對這個三等級計算等級分,等級是分對各個等級中所有短語得分的和,而短語得分取決於這個短語在頁面中位置,分數從高到低依次標題、頭部和錨文本等等,然後的綜合計算這個三個等級得分就得到專傢分。以下舉個簡單的以 汽車消費這個熱門關鍵詞為例,中國汽車消費網的首頁和友情鏈接頁就是這個關鍵詞的專傢頁面,因為他具有足夠多而且不隸屬315che.com主機域名和同C類ip的出鏈,同時標題中的中國汽車消費網也包含汽車和消費這兩個術語。接下來評分,先算第一等級(包含所有術語的短語)的得分,短語中國汽車消費網在標題中得到16分(假設),以及在錨文本中中國汽車消費理財傾向大調查得瞭1分,那麼第一等級得分為17分,再算第二等級(差一個術語),第三等級(差兩個術語)。這樣再算三個等級得分的加權和,就是專傢分,註意這三個等級權重相差非常大,在原算法的等級1到等級3的權重分別是2^32,2^16和1,因為HillTop更喜歡完全匹配。

二、 對目標頁評分;一個專傢頁對目標頁的評分等於專傢本身分值×專傢頁可區分的短語數量。取前N個指向目標頁的專傢頁,對於多個同一隸屬的專傢頁指向該目標頁,取分值最高的專傢頁,然後這些專傢頁對目標網頁的評分的和就得到,這個頁面對應這個熱門關鍵詞的得分,有人稱之為行業得分。

我們可以看到HillTop算法通過不同等級的評分確保瞭評價結果對關鍵詞的相關性,通過不同位置的評分確保瞭主題(行業)的相關性,通過可區分短語數防止瞭關鍵詞的堆砌。

總結:HillTop算法存在一種博弈的思想,在鏈接方面同行業的網站既需要競爭更需要合作,隻有被同行認可的網站對熱門關鍵關鍵詞的查詢才會被排在前面。HillTop基本毀滅瞭小網站對熱門關鍵詞的奢望,除非你對熱門關鍵詞有超強的預期能力,但是這種流量隻會持續很短的時間。當然HillTop隻是排名的一個重要因素,並不是全部。

本文由中國汽車消費網(/) SEO研究中心撰寫。轉載請註明。