Web 2.0 峰會：Google 與 Wikipedia 談垃圾過濾

核心提示：鏈接難免遇到垃圾信息。Spammer 們用來推廣站點垃圾，一些老CMS 系統中發現漏洞將垃圾信息註入受害者網站。

在好萊塢如果你被狗仔隊盯上上，說明你是成功的，在矽谷，如果你被垃圾信息盯上，也說明你是成功的。周三上午，在 Web 2.0 峰會( Web 2.0 Summit)，來自 Google, Reddit, Pramana 以及 Wikipedia 的代表暢談瞭如何抵制垃圾信息。

Google 的反垃圾信息團隊的主管 Matt Cutts 說，如果你提供鏈接相關的服務，就難免遇到垃圾信息。Cutts 談到瞭3種類型的垃圾信息，Spammer 們用來推廣站點的垃圾鏈接;向那些允許用戶提供反饋的網頁提交垃圾內容;從一些老的 CMS 系統中發現漏洞將垃圾信息註入受害者網站。

針對垃圾信息，Cutts 建議使用 Akismet 一類的信息過濾服務，部署 CAPTCHA，勤打補丁，甚至對註冊收費等手段進行應對。他建議人們跳出思維圈子，使用一些意料不到的方式對付垃圾信息。如果你讓垃圾信息發佈者產生挫敗感，比向他們收費還有效。

Reddit 的創始人 Steve Huffman 談到瞭他們使用的一些方法，對垃圾信息發送者進行誤導。他表示，Reddit 是一種類似 Digg 但比 Digg 更好的服務，Digg 允許用戶提交他們喜歡的內容的鏈接，並對發佈的內容進行投票，獲得投票數越多的內容被閱讀的幾率越大。

但 Reddit 有所不同，在 Reddit，有些投票不被計算。一旦 Reddit 探測出某人是在發送垃圾信息，他的帳戶會被抵制，但 Reddit 不會通知發垃圾信息的人，他的提交還正常進行，但他提交的內容不會發佈。Huffman 表示，我們使用一些技巧讓垃圾信息發送者以為他們的伎倆得逞。

Jonathan Hochman 是 Wikipedia 的管理員，他談到瞭 Wikipedia 應對垃圾信息和蓄意破壞時使用的一些策略。他說，我們花費瞭很多時間讓 Wikipedia 保持幹凈。Wikipedia 中 20% 到 30% 的編輯操作是蓄意破壞以及對蓄意破壞的修復。

Wikipedia 是一個允許任何人參與編纂的在線百科全書，但少為人知的是，這個站點依靠的是計算機自動編輯，Hochman 解釋道，一些自動程序參與瞭編輯工作。

比如 ClueBot，它參與瞭大約80萬篇文章的編輯，ClueBot 做瞭大量文章復原與修復工作，如果有人不斷地對某個頁面進行破壞，它會通知人進行幹預。

Praman 的 CEO Sanjay Sehgal 則講述瞭他們的 HumanPresent 技術，該技術用來保護他們剛剛發佈的，尚未命名的海量玩傢遊戲，他說，CAPTCHA 不起作用，因為很容易被破解。

Pramana 的技術會嘗試辨別真正的用戶與自動程序。一個遊戲中有太多機器人玩傢會讓遊戲崩潰。這個技術不僅僅用於阻止 Spam，還幫助改善用戶體驗，提供流量數據。自從使用瞭 HumanPresent 技術，Pramana 發現 12% 到 15% 的流量來自機器人程序。

來源：informationweek.com 翻譯：COMSHARP CMS (銳商企業CMS)官方網站

The Blog