劉建國:Google反作弊還不如百度

對百度,CTO劉建國的尋訪過程就是一個擠牙膏的過程,他從來不會借題施展,對尋訪者的問題,奉復得簡要而專注。

這位與李彥宏一塊兒初次建立百度的技術新士大夫,對搜索引擎網站技術使用的深刻思考,在一定程度上表現出來了這個新上市企業的經濟活動方向及這個團隊的技術假想力。

尋訪中,劉建國不斷接到要求解封的作弊網站的電話,大部分是熟識的人纔會直接將電話擊倒他這處,或是打給李彥宏。尋訪由此而展開。

反作弊是我們的技術

《21百年》:李彥宏挑選搜索引擎網站作為百度的主業,當初是怎麼確認的?

劉建國:2000年之前,中國有很多搜索引擎網站企業,Goyoyo是香港一個企業做的;科學校有一個網站,還有北大天網。當初初次建立企業時搜索引擎網站已經眾多了。我們機緣何在?在當初我和李彥宏的通信中,他說要做就做最好的。當初已有的搜索引擎網站速度慢,引得小,用戶體驗認識很差。我們都覺得做一個漢字搜索引擎網站有非常大前面的景物,所以我就從北大出來,跟李彥宏一塊兒創業了。

《21百年》:如今來看,當初搜索的中心技術是啥子?

劉建國:分成好幾塊,一塊是網頁抓取,由蛛蛛手續挑選、抓取互聯網中的網頁,還要連續不斷不停地更新網頁,將超過期限的網頁剔洗雪;二是超鏈剖析和內部實質意義剖析;三是針對用戶的搜索服務:怎麼樣處置海量數值和大規模的用戶過訪?怎麼樣供給牢穩的服務?有眾多技術問題需求解決。

《21百年》:你們是一幫人在做?

劉建國:好多個組,重點是有關性的名聲。哪一些網頁是用戶想要的?後面就有好多技術;譬如超鏈剖析;這處有李彥宏的專利。超鏈在Infoseek之前就有結果熟的技術,李彥宏在那兒辦公時就研討得很細,但我們不擁有僅用這套辦法,而是依據當初搜索引擎網站全世界的進展做了改進。

《21百年》:百度在有關性方面有啥子獨特的風格?

劉建國:有兩個基本方面:超鏈剖析和內部實質意義剖析。我們這幫技術擔任職務的人,涵蓋李彥宏,依據搜索引擎網站當初的技術進展,做出了一套百度自個兒的超鏈剖析系統。額外還得剖析網頁內部實質意義,譬如漢字處置就很關緊,要了解漢字的語法和特別指定書契意義,由於漢字與英文仍然不同的,只有判斷書契是啥子意思,能力給用戶供給搜索最後結果。

《21百年》:哄弄搜索是啥子意思?你們有啥子獨有特別的技術來應對它?

劉建國:就是所說的的網絡優化,譬如SEO什麼的,鏈接一點域名,如同鏈接眾多,但其實是人為做出來的。還有一點鏈接,就是專門幫另外的人做鏈接,這也是超鏈剖析。你不是鏈接剖析嗎?專門針對你。還有一點網站,專門給另外的人做,有關度也高,我們務必發覺哪一些是LINKFORM,而後剖析出來。
《21百年》:這怎麼樣看得出來?有簡單工具嗎?

劉建國:我們已經可以經過技術手眼趁早發覺這種哄弄還是叫作弊。是否作弊,有一個很簡單的標准:用戶看見的內部實質意義和搜索引擎網站看見的內部實質意義是否完全一樣?前一段搜索芙蓉姐姐,進去在這以後眾多是買手機的,買其它信息,這就是作弊。我們就剖析,它們是經過啥子辦法來哄弄搜索。譬如LINKFARM,我們靠技術發覺出來,它已經堆砌網站關鍵詞了,我們看出它是作弊的,我就不要它。這就是為什麼後來反彈偌大,有了反百度聯盟的端由。有反百度聯盟人員說,你為何屏蔽我?前一段搜狐網的一個峰會,一個醫療藥品網的說我們美好啊,你為何把我給封了?它的堆砌是作弊的,假如我們把它放開,對用戶是一種哄弄。

《21百年》:譬如在百度搜芙蓉姐姐,你們把有點芙蓉姐姐鏈接給屏蔽了,那就不可以給用戶供給更多的最後結果了?

劉建國:是更正確,譬如用戶到這處來搜,獲得的是真正的芙蓉姐姐而不是手機鈴聲。這麼做的目標是給用戶美好的用戶體驗認識。

《21百年》:在反作弊技術裡,有啥子可以明確辨別作弊?

劉建國:譬如,往返相互鏈接、堆砌網站關鍵詞等。還有前面的景物色和環境色絕對完全一樣,在HTML裡邊,用戶看不見,可以騙搜索引擎網站,就這麼騙用戶。
《21百年》:僅只環境色也可以用來作弊?

劉建國:環境是黑色的,搜索看到的僅只是內部實質意義,是看不到環境的。前面的景物與後景同樣,機器看不著,人能見得,景致也是辨別的因素。那裡面的書契就是有點網站想哄弄的物品。有眾多辦法作弊,接連不斷的。搜索與作弊網站是從來不會終了的戰爭。

《21百年》:有沒有可以招撫的作弊網站?

劉建國:不會的。它們的好處非常大,騙一點兒是一點兒,不會到這處來做。

《21百年》:有若乾這麼的網站?

劉建國:每日遇到成千這麼的網站。

《21百年》:它們到哪兒拉客戶?

劉建國:不盡然拉客戶,它們可以自個兒做鈴聲、短信,SEO會拉公司,給錢,我給你排位。

另一個敵人是Google嗎?

《21百年》:與Google的反作弊比,你們有啥子優勢?

劉建國:說Google的技術比我們好,我不認同,它們主要是不夠集中。譬如反作弊的,Google漢字就做然而我們,這有技術問題,還有人的勞力,要曉得作弊慣於使用的手法,而Google不曉得。這個標准樣式我們比Google進展得更快,我們更近用戶。我們漢字的了解做得比它們好,譬如像分詞、切詞,漢字是一個一個字,放一起,那一些字和詞是不同的。我做得比Google好。它們沒有專門研討漢字。

《21百年》:你們是用自個兒的技術?

劉建國:似的。我們漢字分詞,這個技術裡邊沒有英文,漢字本身的處置我們已經到位,還有語法的應用,我們做得美好。語法是主謂賓,怎麼樣用,老外沒完解。

《21百年》:你們用曾經的書契辨別技術嗎?

劉建國:對漢字我們有一套獨有特別的作法,如今成熟的技術都不太適應我們。

《21百年》:有沒有用哪一個平臺?譬如大的軟件?

劉建國:這個軟件是我們自個兒做的。

《21百年》:是應用軟件?

劉建國:不是一套。我們直接用自個兒的物品。譬如說辭典、分詞、辭匯。這不是解釋詞義的辭典,有可能有眾多資源。譬如我們用百姓早上出版的報紙的語料庫,我們購買這麼的資料。更多的平臺是我們自個兒的搜索引擎網站。我們有日記,總結概括新的辭匯。我們對10億計的網頁也能剖析。這是Google漢字做不到的。至少沒有會聚。額外從其中文用戶體驗認識來說,我們也做得比它們好,譬如用戶體驗認識是啥子、習性是啥子。譬如有關搜索,在漢字裡邊,用戶心中想的一個事物,譬如軟件這個詞,用戶心中想的是軟件下載,但搜索的是軟件這個詞,他輸入軟件,與搜索不合適。百度會提醒得更加精密細致化,到盡頭是軟件下載仍然加密,全半自動服務,這麼用戶會感到美好。大致相似的辦公我們下了眾多功夫。其它像讀音檢索,別字匡正,我們也能准確提醒。如今有點搜索正在抄我們。我覺得不可以崇洋。

從競價名次均衡用戶體驗認識

《21百年》:從用戶體驗認識來看,以前一度Google要比你們許多,譬如競價名次不是它們主要標准,信息的直接管用很關緊。

劉建國:這是額外一個誤區。搜索最後結果的首頁我們有若乾競價名次呢?沒若乾,最多不超過20百分之百,我們的原則是用戶體驗認識是首位的,並且是真正有關的。如今20百分之百是被人定制的,其它是不收費表現出來的,是有用的。其實,20百分之百的競價名次也是在嚴明的人工審查核定下去經過的。

《21百年》:人工審查核定能來不得一個例子?

劉建國:我們有一個30人的組,譬如用戶提一個詞,看是不是真正跟商品相關的。第二,鏈接的這個網站,是不是做商品的。縱然是客戶定制的競價,競的是某個網站關鍵詞,我們也要看是不是商品、是不是服務。

《21百年》:怎麼樣表決?

劉建國:人工能查出來,當然也有眾多調試。譬如IBM,我們思索問題把IBM放在最前,後來仍然把IBM中國放在面前。固然阿裡商城(IT銷行商)交錢了,但第1個仍是IBM中國,我們也是思索問題到用戶的體驗認識。

《21百年》:就是說要在用戶與客戶之間均衡?在網頁上還有哪一些直接表現出來?

劉建國:收費的內部實質意義均有微記,譬如百度快照不是收費的。

《21百年》:你們賣得最好的網站關鍵詞是哪一些?

劉建國:譬如鮮花,就有眾多人買。第1條是買的,是實時變動的,誰的價高就買到最面前去了。

百度不再用插件營銷

《21百年》:你們的營銷形式以前是以一個插件(業界通稱為流氓軟件)來解決?

劉建國:這不是最關鍵的。當初主要是與3721打,競爭太緊張了,這是背景所致的。

《21百年》:如今插件還用嗎?

劉建國:我們插件裝得挺少的。與有的搜索比,百度這種流氓軟件最少,插件不是主流的,如今都已經走向正規了。插件只是推廣手眼,從今以後成為用戶自個兒主動。百度的插件是可以卸掉的,譬如搜霸。但有點搜索,沒有些就生成了,這種推廣手眼我們曾經做過,但後來停了。假如用戶要感到好,可以自主挑選,我們可以保障,用戶不會不主動挑選、不遵照他的意願——不主動強迫性的。

《21百年》:你們去掉了哪一些插件呢?

劉建國:我們的不會半自動彈出來,也不會誤裝。

《21百年》:我們可不行說,百度曾經用過插件,如今無須了?

劉建國:如今都無須了。我們就是一個搜霸,百度聯盟,並且推廣形式不是強迫性的。搜霸的確也有益,節約了用戶時間,一步到位。我們不會用曾經的推廣形式。但有點網站點進擔任或不擔任是網絡實名,就是靠彈出,非意願的。我們原來也用得很少,也是百度聯盟人員自個兒用的由於裝上後有收入。如今誰利用這種形式裝,就不讓參加聯盟了。

《21百年》:有若乾個聯盟人員?

劉建國:如今有好幾萬。怎麼樣管理這些個聯盟也是一個大問題。

技術與人工、誰排第1?

《21百年》:剛剛提到有關性、超鏈剖析、反作弊,接合起來形成了你們的中心價值嗎?

劉建國:是。但怎麼樣調節這些個物品,各家都不同。超鏈剖析是共用的。大家都在用。沒有一個企業去揭曉搜索技術,由於這是一個經濟活動隱蔽的事。我們是通過5年多積累纔出來這麼好的最後結果。這些個都是中心技術,一定得積累。

《21百年》:共享的經驗有哪一些?

劉建國:各個企業不同,不可以揭曉細節。

《21百年》:你們關緊在剖析用戶仍然客戶?

劉建國:關緊的是剖析網頁,網頁與網頁之間的剖析。WEB的形式,是由HTML組成的。網頁與網頁之間的是URL,最大益處是網頁與網頁之間可以用超鏈來指,叫HYPERLINK,指向額外一個網頁是做之類。譬如中國百姓銀行會指向眾多物品,每個都是鏈。它們指向他,LINK有一個叫名聲,U1對U2的名聲。第1是指向,第二是名聲。這是一個網頁,中國百姓銀行就是超鏈,他指向額外一個——有解釋明白中國銀行是做之類,指向後,另一個是指向的U2,額外還有U3。很有關的排面前,找到最權威的。最終綜合加權,中國百姓銀行大,其它經濟活動銀行小,那末就加權,算出來最後結果誰排面前。

《21百年》:你們做這些個,有沒有編輯?

劉建國:有的網站有,我們不擁有,但我們有人工。網站不必編輯,我們是靠技術,要把這些個物品都拿過來。剛剛說的抓取、剖析是否有關,生成抓取的名次。抓取要剖析,在這以後樹立引得,把內部實質意義到URL的一個檢索,在這以後供給服務。抓取,剖析、檢索、服務四個環節。

《21百年》:你們的技術部門是按四個環節來分的?

劉建國:我們有眾多組,做不一樣辦公。

《21百年》:你們的出產環節與一般的產品定義不同。

劉建國:是有點怪。譬如說我們是怎麼樣攻關:要剖析、提問,每個部門都提,李彥宏也會參加。

《21百年》:你們近來提過啥子問題?

劉建國:我還沒想到透漏非常多的細節,譬如抓取。我近來要提出一個問題:網站的遮蓋率。要研討中國全部的網站。我們尋常與Google比較,我們來看交集,相同的內部實質意義是若乾?各自抓若乾?我們發覺交集無幾,我們獨自的較多,這是全部搜索的共性。我提出說,要去調查研究,為何會有這種差距,這種區別是怎麼樣萌生的,沒抓的是啥子特別的性質?Google抓的是啥子特別的性質?Google是國外的嗎?這都是一種猜測。我們要去調查,而後去做方案,方案再商議是不是行得通。這麼連續不斷不停地做,技術的含量頎長。效果都是很客觀的,都是真刀真槍的。

《21百年》:技術隊伍怎麼樣分工?

劉建國:除開開發還有測試的,額外還有運營的,給我們供給服務是在中國電信或網通,額外要管機器,硬盤壞了,負責換,系統要上線,數值有哪一些問題,都得剖析。開發、運營、測試還有客服(有面向用戶及公司的)。有問題可以直接發到電子郵件,我們短時間之內沒有呼叫核心。為用戶解決問題,先收拾一點問題,再傳到其它部門。

《21百年》:你們的產品,是以啥子形態閃現出來的?

劉建國:網頁、MP3、曉得等等,每個頻帶都是一個產品。

《21百年》:光靠技術好不好?仍然需求編輯?

劉建國:主要靠技術,這樣數量多信息處置,靠人工不可以。有人工,也是IT匡助下的人工。

《21百年》:專業性的頻帶,譬如百度傳達情意、影視頻文件道,百度曉得,也是技術出產出來的?

劉建國:這是搜索人腦,技術職業績行了。

《21百年》:你們作為純技術派的人,覺得百度在技術上與微軟、Google競爭,真得那末輕松嗎?

劉建國:我覺得百度這樣積年為什麼能成功一個主要的端由,就是我們的專注,只做搜索,漢字搜索。對於要趕超的人,第1是專注,要逾越自我。我們在不一樣的場合說過,我們的對手是我們自個兒,不是其它的人。我們能否維持火熾的斗志,我們在困難年月裡維持的那一些物品能否保遺留,我們每私人是不是都很努力向前、協作。這是表決我們最關鍵的物品。這個之外還要接著招優秀的人。

曉得、貼吧中心解密

《21百年》:搜索技術會有大的變動嗎?

劉建國:可能要變動,一句說不明白。我感到要維持創新,要監控業界的變動,要跟得上變動。往後的方向眾多,譬如說個性化需要,不一樣的人查到不一樣的最後結果,或許真有不一樣的進展。

《21百年》:解決個性化需要有賴啥子技術?

劉建國:理解這私人的個性,曉得這私人的環境、身分、歲數和習性,這麼來調試搜索;額外無線搜索也是新市場。通經手辦理機搜索及其它智能終端,針對不一樣的需要,專門樹立無線搜索頻帶;其它的應用,譬如地圖搜索,如今Google正在做,百度是否要做,如今還沒有完成開發。

《21百年》:讓我們來說說曉得,它的哪一點兒技術比較關鍵?

劉建國:百度曉得是用來找知識的。沒有所說的中心技術,它是一個平臺,讓問的上下團結應答的人都能在這處半自動骨碌,提出問題和應答都很便捷。平臺的界面和流程都要建得好,額外名聲的系統美好,加權均勻的系統,沒有一個中心的技術。

《21百年》:你們對客戶施行管理用啥子系統?

劉建國:競價的用戶,一個是客戶(公司),一個是用戶(網民),我們不必管理,我們只消服務就行了。譬如對客戶,主要是提高服務效果,對買賣有利。

《21百年》:那你們不要思索問題客戶的忠誠度,也就是貼性?

劉建國:我們是看效果,不憚他流失,他能找到知識就來,要靠產品的價值來吸引,而不是管理。怎麼樣樹立很有粘性的平臺,譬如曉得有評分兒,我們還有百度幣、貼吧。

《21百年》:貼吧的關鍵技術是啥子?

劉建國:用戶量大、發言多,怎麼樣把平臺做到能夠支持,網頁檢索定期更新,這都很難。如今短時間之內不是絕對實時的。我們專門有TEAM,叫搜索應用組,實時性、數值量大,這兩個很難。

《21百年》:貼吧可以無盡的擴展?

劉建國:我們如今有82萬個吧,理論上可以無盡地擴展。一個吧裡邊的話題帖子有的話便會保存著。

《21百年》:有人管貼吧嗎?

劉建國:有,譬如作廣告的。BBS只有幾類,不可以無盡的擴展,我們可無盡地擴,用戶可以自個兒提出請求變成吧主。

《21百年》:貼吧能萌生哪一些效用?

劉建國:網民以興致為單位組成社區,這麼就很有粘性,可以訴說、刊發看法、輿論,志趣相投的人商議物品,這是比較獨有特別的。

《21百年》:貼吧以外,還有沒有表現出來技術含量的物品?

劉建國:有很多,譬如MP3,要有用戶習性的積累;新聞頻帶,我們的新聞是靠技術剖析,沒有人工、零成本。哪套新聞顯露出來得多,過載得多,它就是權威。並且是實時的。新聞是分類,國內、國際、財經沒有分類,短時間之內沒有更細的了。

《21百年》:譬如你們過載新浪新聞,需它們給權力委托嗎?

劉建國:不必。我們只是直接鏈接。我們也能帶來廣告的,如有編輯內部實質意義的,可以定制新聞。