Google 搜索引擎網站spam 的品類

Google 搜索引擎網站spam 的品類

a. 內部實質意義型(內部實質意義哄弄型與非哄弄型) b. 鏈接型 c. 復合型

 

Google 搜索引擎網站判斷spam的普通辦法

 

– 鏈接剖析:網站(域名,IP)之間的鏈接,網頁之間的鏈接的數量,應當限止在數額內,況且要思索問題散布的狀態。

 

– 面純一辭匯的剖析:(有時候叫網站關鍵詞疏密程度剖析)頁面純一辭匯與頁面所有辭匯的比例和散布,當頁面純一詞薈萃中在少量網站關鍵詞上,有spam的嫌疑。

 

– 連署頁面的相仿性剖析:互相連署的頁面幾乎絕對相仿則有spam的嫌疑。

 

– 內部實質意義的貝葉斯剖析:網站關鍵詞之間的有關性可以從訓練spam樣本和非spam樣本獲得。例如頁面裡顯露出來:不收費,還是鈴聲下載都不可以判斷為spam,不過同時顯露出來『不收費』,『鈴聲下載』就極可能是spam。

 

– 有關剖析:白單子,黑單子。

 

– 留言陷坑:例如樹立多個blog系統,開放一點文章的留言,內部實質意義上解釋明白是專門針對spam留言。這麼當一點半自動留言手續施行留言後鏈接就被記錄下來,變成一個『陷坑』。

 

– 正文裡非鏈接的書契的比例。如今認為合適而使用兩種page rank,一種是鏈接型網頁,一種是內部實質意義型網頁,鏈接型網頁比較容易被判斷看做spam,例如 hao123.com 。