Web 2.0 峰會:Google 與 Wikipedia 談垃圾過濾

核心提示:鏈接難免遇到垃圾信息。Spammer 們用來推廣站點垃圾,一些老CMS 系統中發現漏洞將垃圾信息註入受害者網站。

在好萊塢如果你被狗仔隊盯上上,說明你是成功的,在矽谷,如果你被垃圾信息盯上,也說明你是成功的。周三上午,在 Web 2.0 峰會( Web 2.0 Summit),來自 Google, Reddit, Pramana 以及 Wikipedia 的代表暢談瞭如何抵制垃圾信息。

Google 的反垃圾信息團隊的主管 Matt Cutts 說,如果你提供鏈接相關的服務,就難免遇到垃圾信息。Cutts 談到瞭3種類型的垃圾信息,Spammer 們用來推廣站點的垃圾鏈接;向那些允許用戶提供反饋的網頁提交垃圾內容;從一些老的 CMS 系統中發現漏洞將垃圾信息註入受害者網站。

針對垃圾信息,Cutts 建議使用 Akismet 一類的信息過濾服務,部署 CAPTCHA,勤打補丁,甚至對註冊收費等手段進行應對。他建議人們跳出思維圈子,使用一些意料不到的方式對付垃圾信息。如果你讓垃圾信息發佈者產生挫敗感,比向他們收費還有效。

Reddit 的創始人 Steve Huffman 談到瞭他們使用的一些方法,對垃圾信息發送者進行誤導。他表示,Reddit 是一種類似 Digg 但比 Digg 更好的服務,Digg 允許用戶提交他們喜歡的內容的鏈接,並對發佈的內容進行投票,獲得投票數越多的內容被閱讀的幾率越大。

但 Reddit 有所不同,在 Reddit,有些投票不被計算。一旦 Reddit 探測出某人是在發送垃圾信息,他的帳戶會被抵制,但 Reddit 不會通知發垃圾信息的人,他的提交還正常進行,但他提交的內容不會發佈。Huffman 表示,我們使用一些技巧讓垃圾信息發送者以為他們的伎倆得逞。

Jonathan Hochman 是 Wikipedia 的管理員,他談到瞭 Wikipedia 應對垃圾信息和蓄意破壞時使用的一些策略。他說,我們花費瞭很多時間讓 Wikipedia 保持幹凈。Wikipedia 中 20% 到 30% 的編輯操作是蓄意破壞以及對蓄意破壞的修復。

Wikipedia 是一個允許任何人參與編纂的在線百科全書,但少為人知的是,這個站點依靠的是計算機自動編輯,Hochman 解釋道,一些自動程序參與瞭編輯工作。

比如 ClueBot,它參與瞭大約80萬篇文章的編輯,ClueBot 做瞭大量文章復原與修復工作,如果有人不斷地對某個頁面進行破壞,它會通知人進行幹預。

Praman 的 CEO Sanjay Sehgal 則講述瞭他們的 HumanPresent 技術,該技術用來保護他們剛剛發佈的,尚未命名的海量玩傢遊戲,他說,CAPTCHA 不起作用,因為很容易被破解。

Pramana 的技術會嘗試辨別真正的用戶與自動程序。一個遊戲中有太多機器人玩傢會讓遊戲崩潰。這個技術不僅僅用於阻止 Spam,還幫助改善用戶體驗,提供流量數據。自從使用瞭 HumanPresent 技術,Pramana 發現 12% 到 15% 的流量來自機器人程序。

來源:informationweek.com 翻譯:COMSHARP CMS (銳商企業CMS)官方網站