搜索引擎網站網頁去重算法剖析

　　有關計數數值表明：互聯網上近似重復的網頁的數目佔網頁總額量的比例高達29百分之百，絕對相同的網頁大約佔網頁總額量的22百分之百.研討表明，在一個大型的信息搜集系統中，30百分之百的網頁是和額外70百分之百的網頁絕對重復或近似重復的。

　　即：互聯網的網頁中相當高的比例的網頁內部實質意義是近似相同或絕對相同的!

　　搜索爬行動物抓取會萌生網頁重復的類型：

　　1.多個URL地址指向同一網頁以及鏡像站點

　　如：和.cn

　　指向同一個站點。

　　2. 網頁內部實質意義重復或近似重復

　　如剿襲、轉摘的內部實質意義，垃圾信息等

　　網頁內部實質意義近似重復檢驗測定的兩種應用途合：

　　一：在用戶搜索階段

　　目的是依據與用戶給定的查問詞找到已有引得列表中近似重復的文檔，並排序輸出。

　　二：爬行動物抓取發覺階段

　　對一個新的網頁，爬行動物手續經過網頁去重算法，最後表決是否對其引得。

　　近似重復網頁類型，依據文章內部實質意義和網頁布局款式的組合分為4種方式：

　　一：兩篇文檔在內部實質意義和布局款式上一無差別，則這種重復稱為絕對重復頁面。

　　二：兩篇文檔內部實質意義相同，但布局款式不一樣，則這種重復稱為內部實質意義重復頁面。

　　三：兩篇文檔有局部關緊的內部實質意義相同，況且布局款式相同，則這種重復稱為布局重復頁面。

　　四：兩篇文檔有局部關緊內部實質意義相同，但布局款式不一樣，則這種重復稱為局部重復頁面。

　　重復網頁對搜索引擎網站的不順利影響：

　　正常事情狀況下，十分相仿的網頁內部實質意義不可以或只能給用戶供給小量的新信息，但在對爬行動物施行抓取、引得和用戶搜索會耗費數量多的服務器資源。

　　重復網頁對搜索引擎網站的益處：

　　假如某個網頁重復性頎長，往往是其內部實質意義比較比較受熱烈歡迎的一種表現出來，也顯示著該網頁相相比較較關緊。應予以優先收錄。當用戶搜索時，在輸出最後結果排序時，也應給予較高的權重。

　　重復文檔的處置形式：

　　1.刪去

　　2.將重復文檔分組

　　搜索引擎網站近似重復檢驗測定流程：

　　SimHash文檔指紋計算辦法：

　　1)從文檔中提出取得具備權值的特點標志聚齊來表達文檔。如：如果特點標志都是由詞和詞組成的，詞的權值由詞的出現次數TF 來確認。

　　2)對每一個詞，經過哈希算法生成N位(一般事情狀況是64位或更多)的二進制數字,如上所述圖，以生成8位的二進制值為例。每個詞都對應各自不一樣的二進制值。

　　3)在N維(上圖為8維)的矢量V中，作別對每維矢量施行計算。假如詞相應的比特位的二進制數字為1，則對其特點標志權值施行加法運算;假如比特位數字為0，則施行減法運算，經過這種形式對矢量施行更新。

　　4)當全部的詞都依照上面所說的處置完結後，假如矢量V中第i維是正數，則將N位的指紋中第i位設置為1，否則為0。

　　Jacccard相仿性計算辦法：

　　如上所述圖，A和B代表2個聚齊，聚齊C代表聚齊A和B相同的局部。 A聚齊裡面含有5個元素，B聚齊裡面含有4個元素，而兩者相同的元素有2個，即聚齊C的體積是2. Jaccard計算兩個聚齊相同的元素佔總元素的比例。

　　如圖中，聚齊A和聚齊B共有7個不一樣的元素，相同元素個數2個，所以聚齊A和聚齊B的相仿性為：2/7

　　在實際應用中，聚齊A 和聚齊B 的特點標志都會通過哈希計算，轉化成N位(64位甚至於更多)的二進制數字，因此將聚齊A和B的相仿性比較轉化為二進制數字的比較，稱為海明距離的比較。兩個位數相同(如均為64位)相同位置上不一樣的二進制數字的個數稱為海明距離。

　　對給定的文檔A，如果通過特點標志取出–哈希指紋運算後的二進制數字是：1 0 0 0 0 0 1 0

　　對給定的文檔B, 如果通過特點標志取出—哈希指紋運算後的二進制數字是：0 0 1 0 0 0 0 1

　　通過比較，文檔A 和 B的第一位、第3位、第7位、第8位四個位置的數字不一樣，即海明距離為4. 兩個文檔的二進制位數不一樣的個數越多，海明距離越大。海明距離越大，解釋明白兩個文檔不相仿性越大，與之相反，則越小。

　　不一樣搜索引擎網站有可能會以不一樣的海明距離值來判斷兩個網頁內部實質意義是否近似重復。有關剖析覺得，普通事情狀況下，對一個64位的二進制數字來說，將海明距離<=3作為判斷是否近似重復的標准比較合理.

　　筆者博客：http://blog.sina.com.cn/albertsem

The Blog