內容重復機制可視化：大量有用的信息圖表

眾所周知，內容重復是搜索引擎優化中的一大忌，通常情況下轉載的文章是很難獲得高權重，所以站長們往往使用偽原創，下面是部分關於內容復制的信息圖表，相信對各位會有所幫助。

#1 從博客上復制內容：

上圖是主要針對博客這種網站媒體類型的，我們使用wordpress的時候經常將文章毫無保留地展示在首頁，而不是使用輸出摘要（就好像SEMWATCH那樣），根據Randfish觀察，其實這樣子是會搜索引擎誤認為內容重復。

#2 URL參數引起的內容重復

究竟URL參數像Session IDs，Tracking IDs是怎樣引起內容重復的呢？Googlewebmastercentral （需要翻墻）透露，同一個產品頁面，如果搜索引擎爬蟲抓取可以通過多種鏈接途徑抓取同一個產品頁面，那樣會有以下幾種消極的影響：

1.多種URLs會稀釋鏈接的廣泛性。比如上圖的產品頁面，如果有50個導入鏈接，那有可能分別形成瞭3種導入URL途徑，而不是唯一的某一個URL，這樣就等於將導入鏈接傳遞的權重分散到3個不同的鏈接上。

2.搜索結果或許會呈現不友好的URL（比如一大串長長的session ID，tracking ID）。從而在SERP中，降低瞭用戶對該頁面的清晰瞭解程度（英文url比如semwatch.org/sem，不僅僅具備搜索引擎友好性，更重要的是用戶體驗友好性），不利於品牌的塑造。

#3 搜索引擎對待內容重復的態度

從Search Engine Land給出上圖可知，一般來說搜索引擎通過4個步驟來識別內容是原創還是復制：

1.發現。當搜索引擎爬蟲發現新的內容，他會立刻與之前收錄的內容進行比較確保內容的原創性。

2.丟棄。首先，搜索引擎會放棄收錄那些來自鏈接工廠，MFA站點（Made For Adense）和被列入黑名單的IP的頁面

3.解剖。下一步就是分析每個頁面的入站鏈接，判斷鏈接的質量和源頭。

4.決定。最後就是回顧之前收錄的頁面和相關鏈接，決定哪一個頁面才是絕對原創。

The Blog