百度如何判斷網站文章是否原創

大量復制內容網站有的時候會影響關鍵字的排名。

比如說原本是你寫的文章,本來應該排名很好,但是其他人抄襲或轉載你的文章,而且搜索引擎不幸的判斷那篇被抄襲或轉載的網頁是原始出處的話,你應有的排名就會被那個網頁奪走。

那麼搜索引擎怎樣才能從多個網頁中挑出哪一個是原始出處呢?可能有以下幾個考慮:

1)網頁PR值。網頁PR值越高,被認為是原始版本的可能性就越大。

2)網頁第一次被收錄的時間。網頁被搜索引擎收錄的時候越早,相比後發現的相同內容的網頁來說,被當作原始出處的可能性就越大。

3)域名註冊時間。越老的域名上面的網頁被當成原始出處的可能性也越大。

4)網站的權威度。這就有點說不清瞭,可能包含前面3個因素,還有很多其他因素。

但到目前為止,無論以哪一個因素為主,或怎樣組合這些因素,都不可能完全正確從多個網頁中挑出原始出處。

比如說我這個博客就很新,域名也很新,文章被收錄的時間有的時候也不一定是最早的,就權威地位和被信任度來說,也肯定比不上很多中文網站。但我的博客新,我的域名新,並不意味著我的內容就不是原始出處,實際上我的所有博客都是原創。

我最近也發現瞭很多網站都轉載,有的時候是抄襲我的博客內容,很多網站的規模,歷史,PR值都比我的網站要高的多。

在檢測文章原始出處方面,Google做的比較好,基本上能夠正確判斷,百度做的就比較差。從我的文章在不同的地方出現的情況看,百度似乎認為域名比較老的就是原創。(diyfzl.cn)