劉建國:Google反作弊不如百度

原文如下:

對百度,CTO劉建國的采訪過程就是一個擠牙膏的過程,他永遠不會借題發揮,對采訪者的問題,回復得簡練而專註。這位與李彥宏一起創立百度的技術新官僚,對搜索引擎技術運用的思考,在一定程度上體現瞭這個新上市公司的商業方向及這個團隊的技術想象力。采訪中,劉建國不斷接到要求解封的作弊網站的電話,大多是熟人才會直接將電話打到他這裡,或是打給李彥宏。采訪由此而展開。

反作弊是我們的技術

《21世紀》:李彥宏選擇搜索引擎作為百度的主業,當時是怎麼確定的?

劉建國:2000年之前,中國有許多搜索引擎公司,Goyoyo是香港一個公司做的;科學院有一個網站,還有北大天網。當時創立公司時搜索引擎已經很多瞭。我們機會在哪裡?在當時我和李彥宏的通信中,他說要做就做最好的。當時已有的搜索引擎速度慢,索引小,用戶體驗很差。我們都認為做一個中文搜索引擎有很大前景,所以我就從北大出來,跟李彥宏一起創業瞭。

《21世紀》:現在來看,當時搜索的核心技術是什麼?

劉建國:分成好幾塊,一塊是網頁抓取,由蜘蛛程序選擇、抓取互聯網中的網頁,還要持續不斷地更新網頁,將過期的網頁剔除掉;二是超鏈分析和內容分析;三是針對用戶的搜索服務:如何處理海量數據和大規模的用戶訪問?如何提供穩定的服務?有很多技術問題需要解決。

《21世紀》:你們是一幫人在做?

劉建國:好多個組,重點是相關性的評價。哪些網頁是用戶想要的?後面就有好多技術;比如超鏈分析;這裡有李彥宏的專利。超鏈在Infoseek之前就有成熟的技術,李彥宏在那兒工作時就研究得很細,但我們沒有僅用這套方法,而是根據當時搜索引擎全球的發展做瞭改進。

《21世紀》:百度在相關性方面有什麼特色?

劉建國:有兩個基本方面:超鏈分析和內容分析。我們這幫技術人員,包括李彥宏,根據搜索引擎當時的技術發展,做出瞭一套百度自己的超鏈分析系統。另外還得分析網頁內容,比如中文處理就很重要,要理解中文的語法和特定文字意義,因為中文與英文還是不一樣的,隻有判斷文字是什麼意思,才能給用戶提供搜索結果。

《21世紀》:欺騙搜索是什麼意思?你們有什麼獨特的技術來對付它?

劉建國:就是所謂的網絡優化,比如SEO之類,鏈接一些域名,好象鏈接很多,但實際上是人為做出來的。還有一些鏈接,就是專門幫別人做鏈接,這也是超鏈分析。你不是鏈接分析嗎?專門針對你。還有一些網站,專門給別人做,相關度也高,我們必須發現哪些是LINKFORM,然後分析出來。

《21世紀》:這如何看得出來?有簡單工具嗎?

劉建國:我們已經可以通過技術手段及時發現這種欺騙或者叫作弊。是否作弊,有一個很簡單的標準:用戶看到的內容和搜索引擎看到的內容是否一致?前一段搜索芙蓉姐姐,進去之後很多是買手機的,買其他信息,這就是作弊。我們就分析,他們是通過什麼方法來欺騙搜索。比如LINKFARM,我們靠技術發現出來,它已經堆砌關鍵詞瞭,我們看出它是作弊的,我就不要它。這就是為何後來反彈這麼大,有瞭反百度聯盟的原因。有反百度聯盟成員說,你為什麼屏蔽我?前一段搜狐網的一個峰會,一個醫藥網的說我們很好啊,你為什麼把我給封瞭?它的堆砌是作弊的,如果我們把它放開,對用戶是一種欺騙。

《21世紀》:比如在百度搜芙蓉姐姐,你們把有些芙蓉姐姐鏈接給屏蔽瞭,那就不能給用戶提供更多的結果瞭?

劉建國:是更準確,比如用戶到這裡來搜,得到的是真正的芙蓉姐姐而不是手機鈴聲。這樣做的目的是給用戶很好的用戶體驗。

《21世紀》:在反作弊技術裡,有什麼可以明確識別作弊?

劉建國:比如,來回互相鏈接、堆砌關鍵詞等。還有前景色和背景色完全一致,在HTML裡面,用戶看不見,可以騙搜索引擎,就這樣騙用戶

《21世紀》:僅僅背景色也可以用來作弊?

劉建國:背景是黑色的,搜索看見的僅僅是內容,是看不到背景的。前景與後景一樣,機器看不著,人能看出來,景色也是識別的因素。其中的文字就是有些網站想欺騙的東西。有很多方法作弊,層出不窮的。搜索與作弊網站是永遠不會結束的戰爭。

《21世紀》:有沒有可以招安的作弊網站?

劉建國:不會的。他們的利益很大,騙一點是一點,不會到這裡來做。

《21世紀》:有多少這樣的網站?

劉建國:每天碰到成千這樣的網站。

《21世紀》:他們到哪裡拉客戶?

劉建國:不一定拉客戶,他們可以自己做鈴聲、短信,SEO會拉企業,給錢,我給你排位。

另一個敵人是Google嗎?

《21世紀》:與Google的反作弊比,你們有什麼優勢?

劉建國:說Google的技術比我們好,我不認同,他們主要是不夠集中。比如反作弊的,Google中文就做不過我們,這有技術問題,還有人力,要知道作弊慣用的手法,而Google不知道。這個模式我們比Google發展得更快,我們更接近用戶。我們中文的理解做得比他們好,比如像分詞、切詞,中文是一個一個字,放一塊兒,那些字和詞是不一樣的。我做得比Google好。他們沒有專門研究中文。

《21世紀》:你們是用自己的技術?

劉建國:是的。我們中文分詞,這個技術裡面沒有英文,中文本身的處理我們已經到位,還有語法的應用,我們做得很好。語法是主謂賓,如何用,老外不理解。

《21世紀》:你們用以前的文字識別技術嗎?

劉建國:對中文我們有一套獨特的做法,現在成熟的技術都不太適合我們。

《21世紀》:有沒有用哪個平臺?比如大的軟件?

劉建國:這個軟件是我們自己做的。

《21世紀》:是應用軟件?

劉建國:不是一套。我們直接用自己的東西。比如說詞典、分詞、詞匯。這不是釋義的詞典,可能有很多資源。比如我們用人民日報的語料庫,我們購買這樣的資料。更多的平臺是我們自己的搜索引擎。我們有日志,總結新的詞匯。我們對10億計的網頁也能分析。這是Google中文做不到的。至少沒有聚焦。另外從中文用戶體驗來說,我們也做得比他們好,比如用戶體驗是什麼、習慣是什麼。比如相關搜索,在中文裡面,用戶心裡想的一個事情,比如軟件這個詞,用戶心裡想的是軟件下載,但搜索的是軟件這個詞,他輸入軟件,與搜索不符。百度會提示得更加精細化,到底是軟件下載還是加密,全自動服務,這樣用戶會覺得很好。類似的工作我們下瞭很多功夫。其他像拼音檢索,錯別字糾正,我們也能正確提示。現在有些搜索正在抄我們。我認為不能崇洋。