淺談SEO之原創和偽原創在搜索引擎中的判定

原創和偽原創成為現在互聯網後時代一個重要的話題，即就是如何保證內容為王的問題，對於門戶型的大互聯網公司來說，也許他們有專業的編輯和寫手，但是據我所瞭解的，甚然逃不瞭要去轉載別人的文章。如何在原創與非原創之間取得平衡點，是做網站運營人員和編輯必須進行把控的一個點。

搜索引擎如何辯別原創和偽原創？

以目前的計算機來看，是不可能做到真正的人工智能識別內容的，也許對英文系還好一些，畢竟英文系的字庫有限，每個獨立的英語的意思是獨立的或者相關的。並且英文中有默認的習慣用-來進行區分。

而中文則就明顯不同。同一個意思，可以用無數個詞來形容，千變萬化。比如說：人面桃花這個詞的涵義就多瞭。所以計算機是不可能辯識的。那麼搜索引擎如何去判定原創和偽原創呢？下面是思路實現。

首先，搜索引擎把兩篇文章進行有機的篩選，作為比對對象，那如何知道這比對的文章是有關的呢？當然就是關鍵字，根據文章的關鍵字決定的，這也就是為什麼文章中要內置一定比例的關鍵字的原因所在，至少如何區分文章中那一個是關鍵字，搜索引擎自有算法解決的，不再多述。

取出兩篇文章以後，計算機就進行分析：

1、設定一個比例，比如定義為M，標註是0.5的系數。

2、把A篇文章，根據字數，段落為分三段。B篇文章段落分為三段，然後進行算法編譯，也可以理解成為加密之類的，也就是說把文字變成符號。比如說一段話進行編譯之後變成瞭aaacbdfbcdfsdafefasdfasd 這樣的字符串。當然不一定是用ABCD這種字符，這樣做的好處是因為方便計算機比對和處理。

3、然後把A，B兩篇文章經過第二步的處理，再通過算法得到，兩篇文章之間的相似度有多少，（估計這個對比算法很復雜，我也隻能猜測。）會得到一個值，也就是類似上述1中提到的這個M的系數，根據標準，比如是高於0.5就表示是雷同，低於就表示是不雷同，如果雷同就利用搜索引擎爬行得到的其他的參數來決定誰是原創，或者是非原創。

我們如何應對搜索引擎的原創判定呢？

道高一尺，魔高一丈，互聯網上永遠沒有絕對的矛與盾，在現在計算機還不可能真正實現人工智能，所以，原創和偽原創是一個暫且永恒的話題。做最強的偽原創可以如下三步走：

1、標題一定要改，並且要改得出神入化。中國的文字很復雜，同樣的一個意思可以用很多的方法來體現，如果你真的不能改，那麼我告訴你一個方法，就是把標題寫長到20-25個字，你一定很特別的。

2、如果你有不錯的文字功功底，你看瞭人傢的文章之後，你就馬上可以在腹稿裡形成一定的框架，然後用你的語言進行描述，再加上圖片等富文本進行修飾，那絕對是一篇難得的偽原創文章。

3、內容錯亂。網上有很多垃圾站。為什麼人傢可以得到關鍵字的排名和流量，原因就是，采集到信息進行偽原創之後，就完全可以變得原創，這裡面最重要的一個原因就是中國的漢字太復雜瞭。程序建立一個詞庫，通過匹配同義字情況，可以基本上實現語句的通順，而減少大量的雷同。至於文章的內容究竟要表達作者什麼真正的意象，計算機根本是讀不懂的。

原創和偽原創是一對天使和魔鬼，你不必憎恨人傢把你的文章進行偽原創，你最多譴責人傢人品不好。所謂文章一大抄。真正的高手當然是高端。那就讓偽原創來得更瘋狂吧！

The Blog

SEO諮詢: (852) 27208908