淺談SEO之原創和偽原創在搜索引擎中的判定

原創和偽原創成為現在互聯網後時代一個重要的話題,即就是如何保證內容為王的問題,對於門戶型的大互聯網公司來說,也許他們有專業的編輯和寫手,但是據我所瞭解的,甚然逃不瞭要去轉載別人的文章。如何在原創與非原創之間取得平衡點,是做網站運營人員和編輯必須進行把控的一個點。

搜索引擎如何辯別原創和偽原創?

以目前的計算機來看,是不可能做到真正的人工智能識別內容的,也許對英文系還好一些,畢竟英文系的字庫有限,每個獨立的英語的意思是獨立的或者相關的。並且英文中有默認的習慣用-來進行區分。

而中文則就明顯不同。同一個意思,可以用無數個詞來形容,千變萬化。比如說:人面桃花這個詞的涵義就多瞭。所以計算機是不可能辯識的。那麼搜索引擎如何去判定原創和偽原創呢?下面是思路實現。

首先,搜索引擎把兩篇文章進行有機的篩選,作為比對對象,那如何知道這比對的文章是有關的呢?當然就是關鍵字,根據文章的關鍵字決定的,這也就是為什麼文章中要內置一定比例的關鍵字的原因所在,至少如何區分文章中那一個是關鍵字,搜索引擎自有算法解決的,不再多述。

取出兩篇文章以後,計算機就進行分析:

1、 設定一個比例,比如定義為M,標註是0.5的系數。

2、 把A篇文章,根據字數,段落為分三段。B篇文章段落分為三段,然後進行算法編譯,也可以理解成為加密之類的,也就是說把文字變成符號。比如說一段話進行編譯之後變成瞭aaacbdfbcdfsdafefasdfasd 這樣的字符串。當然不一定是用ABCD這種字符,這樣做的好處是因為方便計算機比對和處理。

3、 然後把A,B兩篇文章經過第二步的處理,再通過算法得到,兩篇文章之間的相似度有多少,(估計這個對比算法很復雜,我也隻能猜測。)會得到一個值,也就是類似上述1中提到的這個M的系數,根據標準,比如是高於0.5就表示是雷同,低於就表示是不雷同,如果雷同就利用搜索引擎爬行得到的其他的參數來決定誰是原創,或者是非原創。

我們如何應對搜索引擎的原創判定呢?

道高一尺,魔高一丈,互聯網上永遠沒有絕對的矛與盾,在現在計算機還不可能真正實現人工智能,所以,原創和偽原創是一個暫且永恒的話題。做最強的偽原創可以如下三步走:

1、標題一定要改,並且要改得出神入化。中國的文字很復雜,同樣的一個意思可以用很多的方法來體現,如果你真的不能改,那麼我告訴你一個方法,就是把標題寫長到20-25個字,你一定很特別的。

2、如果你有不錯的文字功功底,你看瞭人傢的文章之後,你就馬上可以在腹稿裡形成一定的框架,然後用你的語言進行描述,再加上圖片等富文本進行修飾,那絕對是一篇難得的偽原創文章。

3、內容錯亂。網上有很多垃圾站。為什麼人傢可以得到關鍵字的排名和流量,原因就是,采集到信息進行偽原創之後,就完全可以變得原創,這裡面最重要的一個原因就是中國的漢字太復雜瞭。程序建立一個詞庫,通過匹配同義字情況,可以基本上實現語句的通順,而減少大量的雷同。至於文章的內容究竟要表達作者什麼真正的意象,計算機根本是讀不懂的。

原創和偽原創是一對天使和魔鬼,你不必憎恨人傢把你的文章進行偽原創,你最多譴責人傢人品不好。所謂文章一大抄。真正的高手當然是高端。那就讓偽原創來得更瘋狂吧!