淺析搜索引擎對頁面的收錄(二)

如何避免重復性收錄

在互聯網中,信息的重復是在所難免的。然而,搜索引擎怎麼樣才能識別重復的信息呢?怎樣判斷哪些網頁的信息是原創,哪些是復制的?哪些重復的信 息室有價值的,哪些又是可以舍棄的?下面大敏給各位分享下自學後得出的答案。

一個網站裡,重復信息主要包括轉載內容及鏡像內容這兩種,搜索引擎在對頁面進行分析時,必須具備識別重復信息的能力。因為,存儲大量的重復的信息, 不僅給服務器增加負擔,而且還會給用戶體驗造成影響。但這不意味著所有重復信息都是沒價值的,搜索引擎認為轉載內容不如原創內容重要,賦予原創性的內容頁 面有著更高的權重,而鏡像內容則幾乎被忽略

轉載頁面

轉載頁面是指那些與原創頁面的正文內容(搜索引擎通過算法,清楚文章頁面多餘的信息,例如:廣告,圖片,側邊欄,然後,就得到正文內容)相近或相同 的頁面。然後,搜索引擎如何識別轉載頁面呢?首先,把正文內容分為N個區域,如果有M個區域(M是搜索引擎指定的一個閾值)是相同或者相似的,則搜索引擎 認為這些頁面互為轉載內容,

如下圖,頁面一與頁面二是不同網站上的兩個頁面,其中頁面1中的A和頁面2上的B分別是這兩個頁面上的正文內容。為瞭識別這兩個頁面是否互為轉載頁 面,搜索引擎先把這兩個頁面的正文內容分成四個區域進行比較。假設這四個區域中有3個是完全相同或者相似的,則認為這兩個頁面時互為轉載的。

在確定頁面是否為轉載頁面後,接下來,搜索引擎再結合頁面的最後修改時間(搜索引擎在抓取頁面時已經存儲的附加信息,下在一節《搜索引擎工作原理- 搜索引擎對頁面的收錄(三)》)、頁面權重等因素判斷是原創頁面還是轉載頁面。

鏡像頁面

內容完全相同的頁面互為鏡像頁面。要想判斷頁面是否互為鏡像頁面,搜索引擎首先把這些頁面分成N個區域進行比較,如果這N個區域的內容完全一樣,則 認為這些也頁面互為鏡像頁面。然後再綜合頁面權重值,頁面最後修改時間,判斷哪個才是源頁面,哪個是鏡像頁面。

如下圖,頁面一及頁面二,是不同的網站上的兩個頁面。把這兩個頁面分成三個區域進行比較(即A-1、A-2、A-3和B-1、B-2、B-3),如 果這三個區域的頁面內容完全一致,則認為這兩個也米娜互為鏡像頁面

鏡像網站

鏡像網站是指內容完全相同的網站,形成鏡像網站主要有兩種情況:第一種是多個域名或IP指向同一服務器的同一目錄:另外一種是整個網站內容被復制到 時用不同域名或者IP的服務器上。

為瞭識別站點是否互為鏡像網站,搜索引擎首先判斷這些網站的首頁以及與首頁直接連接的頁面是否互為鏡像也米娜。如果是,則互為鏡像網站。然後綜合網 站權重值、建立時間等)識別哪個是源網站,哪個是鏡像網站。這樣,以後抓取頁面就集中在源網站進行,這就是為什麼一些鏡像網站被搜索引擎舍棄,或者收錄少 的原因。

原創文章如轉載,請註明:轉載自大敏博客 [ ]

本文鏈接地址: /archives/73.html