從其中國人網看搜索引擎網站的ASP服務

提要:依據中國互聯網信息核心的第六次中國互聯網絡進展狀態計數報告陳述,搜索引擎網站是僅次於電子郵件的第二大互聯網應用。我國55.91 百分之百的網民都運用搜索引擎網站供給的互聯網搜索服務。一個優秀的搜索引擎網站對於吸援用戶、增加網站的粘性是至關關緊的。不過搜索引擎網站是一個技術含量十分高的互聯網應用,研發和運行需求消耗的錢數量多的人的勞力和物力,代價極高。
中國人網站()是一個面向全世界華人新生界的門戶網站。在中國互聯網信息核心2000年七月份兒施行的第六次中國互聯網影響力調查中,中國人網站成功進入了前10名。作為一個門戶網站,其最主要的目的是樹立品牌和吸引客戶。而要吸援用戶,最主要的手眼就是為網民供給最好的服務。   中國人網站本來就很清楚,門戶網站的優勢並不在於做搜索引擎網站的研發,它們一直在尋覓合作火伴施行搜索引擎網站方面的合作。
  百度企業是一家專門投身搜索引擎網站及其有關軟件研發的互聯網企業,它以ASP的形式向門戶網站供給技術服務。當百度企業在說話時的這一年五月份兒推出百度搜索引擎網站在這以後,中國人網站表決和百度合作。在雙邊並肩盡力盡量下,僅用了短短的兩個星期,就推出了中國第1個提出問題式搜索引擎網站–“孫悟空搜索引擎網站“,為用戶供給了美好的互聯網搜索服務。
  高靠得住的服務
  互聯網搜索服務要求能供給每日24鍾頭、每周7天的不間斷服務。中國人網站要求系統在99.9百分之百的時間內供給搜索服務。百度企業作為供給搜索引擎網站服務的ASP,認為合適而使用了一點技術手眼,保證了中國人網站搜索服務的高牢穩性和靠得住性。
  1、高可用性的整體體系結構
  系統每個局部均認為合適而使用N+1的冗餘預設。當在某個辦公板塊發生異常時,冗餘板塊可迅即開始工作運用。系統能夠半自動檢驗測定板塊的異常,並半自動施行切換。冗餘板塊有兩種配備布置方式:
  備用冗餘(Standby Redundancy) 冗餘板塊在辦公板塊正常辦公時不投入運用,只有在辦公板塊異常時纔被開始使用,一朝原來的辦公板塊還原正常,系統就會半自動切回到辦公板塊,而冗餘板塊從新回到備用狀況。   活躍冗餘(Active Redundancy) 冗餘板塊和辦公板塊同時辦公,互為備案。在正常事情狀況下,冗餘板塊和辦公板塊並肩分擔系統負載,在一個板塊發生異常時,該板塊承受的辦公便被分配售其他板塊,當異常板塊還原正常後,會半自動投入辦公。
  高可用性整體體系結構保障了系統的高靠得住性服務。
  2、系統異常報警系統
  當系統板塊發生異常時,除開冗餘板塊迅即投入運用外,還務必向工程師報警,因此經過人工過問,盡量加快修復異常系統。為此,百度企業研發了系統異常報警系統。
  系統異常報警系統的辦公原理是:系統檢查查看手續定期檢驗測定被檢查查看對象的辦公狀況,假如檢驗測定到不論什麼不正常狀況,迅即向系統工程師和有關擔任職務的人的手機送出短消息兒、或向尋呼機送出消息兒施行報警。
  系統異常報警系統運行在與被檢查查看對象不一樣的機器上,以施行長程監視檢測。系統可以在半分鍾之內檢驗測定到系統異常。
  3、系統異常過問
  系統工程師在接到系統異常報警後,要迅即施行過問,在最短的時間內還原系統的正常辦公。百度把供給ASP服務的機器托管在中國電信。在正常的工作時間,百度經過企業的局域網上網;在下班時間和節假日,百度通電流通過話撥號上網。電話撥號上網可以經過ISP,不過在高峰時間ISP的電話十分不得空,可能不了功,為此,百度在服務器的托管地提出請求了專用電話,專門用於撥號上網。額外,假如企業的局域網不可以連到互聯網,這部電話也可以作為上網備案。
  靈活的客戶化策略
  客戶化是ASP面對的一個課題。門戶網站都有高品質的互聯網搜索服務的需要,不過不一樣的客戶又有自個兒不一樣的獨特的風格需要。對於中國人網站來說,由於是面向年青人的目的網站,因為這個尋求新、奇、酷。針對這種要求,百度預設了一完套靈活的客戶化策略。
  百度提”內部實質意義類聚”和”站點類聚”等浩博的特別的性質供用戶挑選。用戶能夠扼制搜索最後結果頁面的顯露風格和顯露內部實質意義。在顯露內部實質意義上,除開從百度搜索引擎網站回返的搜索最後結果由百度扼制外,其他全部內部實質意義(涵蓋廣告、到其他頁面的鏈接等)都由客戶扼制。搜索最後結果的顯露形式和內部實質意義也可以定制,如網頁的屬性(題目、提要、編碼類型、日子、長度、URL)、般配關鍵字的顏色、不一樣頁之間的鏈接形式都可以依據客戶的愛好表決。
  百度從技術趕快急合適成功實現客戶的定制要求。到現在為止百度有三種標准樣式與客戶交換搜索最後結果:
  服務應用協議標准樣式(Protocol Model) 該標准樣式認為合適而使用客戶/跑堂兒的標准樣式。客戶的手續與百度的搜索服務器施行通信,通信協議認為合適而使用百度定義的BSP(Baidu Search Protocol)。這種形式絕對由客戶扼制最後結果頁面的顯露形式,百度只回返檢索獲得的URL及其屬性。這種標准樣式最靈活、客戶扼制度無上,欠缺是成功實現較為復雜,客戶需求一定的編程有經驗。
  服務應用模型板標准樣式(Template Model) 用戶事前定義好最後結果頁面的顯露內部實質意義和顯露形式,最後結果頁面絕對由百度的搜索引擎網站建構。用戶除開處置與用戶的Web接口以外,不做不論什麼辦公。這種標准樣式的長處是簡單、便於成功實現,欠缺是客戶可扼制度低,模型板的變動頻率快,靈活性也很差。
  服務應用協議模型板標准樣式(Protocol Template Model) 這種標准樣式是上面所說的兩種標准樣式的接合。客戶用顯露模型板定義最後結果頁面局部內部實質意義(往往是檢索最後結果)的顯露形式,剩下的局部由客戶自行表決,整個兒最後結果頁面的建構由客戶完成。檢索事情狀況(如有無最後結果,有無”有關檢索”等特別的性質,最後結果有若乾,服務是否正常)的回返遵循百度和客戶事前定義好的協議。這種標准樣式既便於成功實現,又為用戶供給了美好的靈活性。
  中國人網站認為合適而使用的是服務應用協議模型板標准樣式。中國人網站期望供給一種能夠了解天然問句的漢字搜索引擎網站,所以網站需求曉得每個查問的檢索事情狀況,並做相應處置。假如一個檢索有最後結果,網站便將百度搜索引擎網站回返的URL和自個兒的廣告整拼湊,顯露給用戶。假如該查問沒有最後結果,網站便施行切詞處置,用法置獲得的詞建構查問串,再次向百度搜索引擎網站提交處理,取得檢索最後結果。
  百度搜索引擎網站的技術獨特的地方
  百度搜索引擎網站具備響應速度快、查尋最後結果正確各個方面、時間性強、失效鏈接少、合乎漢字語言獨特的地方和中國人運用習性等長處。
  1、運用智能化的漢字語言處置技術
  百度搜索引擎網站運用獨有特別的漢字語言處置技術靈巧高明地解決了漢字信息的了解問題,信息引得基於字和詞,較好地解決了天真基於seo字或天真基於詞的欠缺,接合了兩者的長處,更加合乎漢字用戶的搜索習性。百度搜索引擎網站支持主流的漢字編碼標准(涵蓋GBK、GB2312、BIG5),況且能夠在不一樣的編碼之間改換。
  2、運用可擴展的搜索技術
  百度搜索運用具備智能性的網絡蛛蛛(Spider)半自動地在互聯網中搜索信息,可定制、高擴展性的調度算法,要得搜索器可在極短的時間內尋找收集到最大數目的互聯網信息,尋找收集范圍包括了大多華語地區和北美、歐羅巴洲的局部站點。
  3、運用智能的有關度名聲算法
  百度搜索引擎網站認為合適而使用了基於內部實質意義和基於鏈接剖析的辦法施行有關度名聲,能夠客觀地剖析網頁所裡面含有的信息,因此上限保障檢索出的最後結果與用戶查問串有頎長的有關性。 
  4、運用高效的搜索算法
  使用多線程等先進技術,高效的搜索算法和牢穩的Unix平臺,使每個檢索的均勻響應時間小於1秒。