搜索引擎網站技術及發展方向

李曉明:1982年結業於哈爾濱工業大學,1986年結業於美國史蒂文斯理工學校計算機系,獲博士學位。現任北京大學計算機科技系教授,博士生導師,系主任. 研討方向為計算機並行與散布處置。 劉建國:北京大學計算機系副教授。

  隨著因特網的迅猛進展、WEB信息的增加,用戶要在信息海洋裡查尋信息,有如海底撈針同樣,搜索引擎網站技術正好解決了這一困難的問題(它可以為用戶供給信息檢索服務)。到現在為止,搜索引擎網站技術正變成計算機工業界和學術界爭相研討、研發的對象。 搜索引擎網站(Search Engine)是隨著WEB信息的迅疾增加,從1995年著手漸漸進展起來的技術。據刊發在《科學》雜志1999年七月的文章《WEB信息的可過訪性》估計,全世界到現在為止的網頁超過8億,管用數值超過9T,況且仍以每4個月翻一番的速度提高。用戶要在這麼浩瀚的信息海洋裡尋覓信息,定然會”海底撈針”無功而返。搜索引擎網站正是為理解決這個”迷失航行方向”問題而顯露出來的技術。搜索引擎網站以一定的策略在互聯網中尋找收集、發覺信息,對信息施行了解、提出取得、團體和處置,並為用戶供給檢索服務,因此起到信息導航的目標。搜索引擎網站供給的導航服務已經變成互聯網上十分關緊的網絡服務,搜索引擎網站站點也被好名譽為”網絡門戶”。搜索引擎網站技術故而變成計算機工業界和學術界爭相研討、研發的對象。本文旨在對搜索引擎網站的關鍵技術施行簡單的紹介,以起到拋磚引玉的效用。  



 分 類:依照信息尋找收集辦法和服務供給形式的不一樣,搜索引擎網站系統可以分為三大類:   



1.目次式搜索引擎網站:以人工形式或半半自動形式尋找收集信息,由編輯員檢查信息在這以後,人工形成信息提要,並將信息置於事前確認的分類框架中。信息大部分面向網站,供給目次瀏覽服務和直接檢索服務。該類搜索引擎網站由於參加了人的智能,所以信息正確、導航品質高,欠缺是需求人工加入、保護量大、信息量少、信息更新比不過時。這類搜索引擎網站的代表是:YAHOOLookSmartOpen Directory、Go Guide等。   



2.機器人搜索引擎網站:由一個稱為蛛蛛(Spider)的機器人手續以某種策略半自動地在互聯網中尋找收集和發覺信息,由引得器為尋找收集到的信息樹立引得,由檢索器依據用戶的查問輸入檢引得得庫,並將查問最後結果回返給用戶。服務形式是面向網頁的全文檢索服務。該類搜索引擎網站的長處是信息量大、更新趁早、毋需人工過問,欠缺是回返信息過多,有眾多無關信息,用戶務必從最後結果中施行用篩子選。這類搜索引擎網站的代表是:AltaVista、Northern Light、Excite、Infoseek、Inktomi、FAST、LycosGoogle;國內代表為:”天網“、悠游、OpenFind等。



3.元搜索引擎網站:這類搜索引擎網站沒有自個兒的數值,而是將用戶的查問煩請同時向多個搜索引擎網站當面送交,將回返的最後結果施行重復擯除、從新排序等處置後,作為自個兒的最後結果回返給用戶。服務形式為面向網頁的全文檢索。這類搜索引擎網站的長處是回返最後結果的信息量更大、更全,欠缺是不可以夠充分運用所運用搜索引擎網站的功能,用戶需求做更多的用篩子選。這類搜索引擎網站的代表是WebCrawler、Info馬克et等。  



性 能 指 標   我們可以將WEB信息的搜索看作一個信息檢索問題,即在由WEB網頁組成的文檔庫中檢索出與用戶查問有關的文檔。所以我們可以用權衡傳統信息檢索系統的性能參變量-召回率(Recall)和精密度(Pricision)權衡一個搜索引擎網站的性能。   召回率是檢索出的有關文檔數日文檔庫中全部的有關文檔數的比值,權衡的是檢索系統(搜索引擎網站)的查全率;精密度是檢索出的有關文檔數與檢索出的文檔總額的比值,權衡的是檢索系統(搜索引擎網站)的查准率。對於一個檢索系統來講,召回率和精密度沒可能兩全齊美:召回率高時,精密度低,精密度高時,召回率低。所以每常用11種召回率下11種精密度的均勻值(即11點均勻精密度)來權衡一個檢索系統的精密度。對於搜索引擎網站系統來講,由於沒有一個搜索引擎網站系統能夠尋找收集到全部的WEB網頁,所以召回率很難計算。到現在為止的搜索引擎網站系統都十分關切精密度。   影響一個搜索引擎網站系統的性能有眾多因素,最主要的是信息檢索板型,涵蓋文檔和查問的表達辦法、名聲文檔和用戶查問有關性的般配策略、查問最後結果的排序辦法和用戶施行有關度反饋的機制。   



主 要 技 術:一個搜索引擎網站由搜索器、引得器、檢索器和用戶接口等四個局部組成。   



1.搜索器   搜索器的功能是在互聯網中隨意游玩,發覺和尋找收集信息。它每常是一個計算機手續,白天黑夜不斷地運行。它要盡有可能多、盡有可能快地尋找收集各品類型的新信息,同時由於互聯網上的信息更新很快,所以還要定期更新已經尋找收集過的舊信息,以防止死連署和失效連署。到現在為止有兩種尋找收集信息的策略:    從一個開始URL聚齊著手,順著這些個URL中的超鏈(Hyperlink),以寬度優先、深度優先或啟示型形式循環地在互聯網中發覺信息。這些個開始URL可以是恣意的URL,但每常是一點十分流行、裡面含有眾多鏈接的站點(如Yahoo!)。    將Web空間依照域名、IP地址或國度域名區分清楚,每個搜索器負責一個子空間的盡頭搜索。   搜索器尋找收集的信息類型多端,涵蓋HTML、XML、Newsgroup文章、FTP文件、字處置文檔、多電視臺信息。   搜索器的成功實現每常用散布式、並行計算技術,以增長信息發覺和更新的速度。經濟活動搜索引擎網站的信息發覺可以達到每日幾一百萬網頁。



2.引得器   引得器的功能是了解搜索器所搜索的信息,從其中抽抽取引得項,用於表達文檔以及生成文檔庫的引得表。   引得項有客觀引得項和內部實質意義引得項兩種:客觀項與文檔的語意內部實質意義無關,如筆者名、URL、更新時間、編碼、長度、鏈接流行度(Link Popularity)等等;內部實質意義引得項是用來反映文檔內部實質意義的,如網站關鍵詞及其權重、短語、單字等等。內部實質意義引得項可以分為單引得項和多引得項(或稱短語引得項)兩種。單引得項對於英文來講是英語單詞,比較容易提出取得,由於單詞之間有自然產生的的中間隔斷符(空格);對於漢字等蟬聯書寫的語言,務必施行詞和詞組的切分。   在搜索引擎網站中,普通要給單引得項賦與一個權值,以表達該引得項對文檔的區別度,同時用來計算查問最後結果的有關度。運用的辦法普通有計數法、信息論法和幾率法。短語引得項的提出取得辦法有計數法、幾率法日文字學法。   引得表普通運用某種方式的倒排表(Inversion List),即由引得項查尋相應的文檔。引得表也有可能要記錄引得項在文檔中顯露出來的位置,以便檢索器計算引得項之間的相鄰或靠近關系(proximity)。   引得器可以運用集中式引得算法或散布式引得算法。當數值量非常大時,務必成功實現立即引得(Instant Indexing),否則不可以夠跟上信息量急速增加的速度。引得算法對引得器的性能(如大規模峰值查問時的響應速度)有非常大的影響。一個搜索引擎網站的管用性在非常大程度上決定於於引得的品質。  



3.檢索器   檢索器的功能是依據用戶的查問在引得庫中迅速檢出文檔,施行文檔與查問的有關度名聲,對即將輸出的最後結果施行排序,並成功實現某種用戶有關性反饋機制。   檢索器常用的信息檢索板型有聚齊理論板型、代數板型、幾率板型和混合板型四種。   



4.用戶接口   用戶接口的效用是輸入用戶查問、顯露查問最後結果、供給用戶有關性反饋機制。主要的目標是便捷用戶運用搜索引擎網站,高速率、多形式地從搜索引擎網站中獲得管用、趁早的信息。用戶接口的預設和成功實現運用人機交互的理論和辦法,以充分適合人的總稱的思惟習性。   用戶輸入接口可以分為簡單接口和復雜接口兩種。   簡單接口只供給用戶輸入查問串的文本框;復雜接口可以讓用戶對查問施行限止,如思維規律運算(與、或、非;+、-)、相近關系(相鄰、NEAR)、域名范圍(如.edu、.com)、顯露出來位置(如題目、內部實質意義)、信息時間、長度等等。到現在為止一點企業和機構正在思索問題制定查問選項的標准。   



未 來 動 向:搜索引擎網站已變成一個新的研討、研發領域。由於它要用到信息檢索、人工智能、計算機網絡、散布式處置、數值庫、數值開鑿、數碼書庫、天然語言處置等多領域的理論和技術,所以具備綜合性和挑戰性。又因為搜索引擎網站有數量多的用戶,有美好的經濟價值,所以引動了世界各國計算機科教育界和信息產業界的高度關心注視,到現在為止的研討、研發非常活躍,並顯露出來了眾多值當注意的動向。  



 1.非常注意增長信息查問最後結果的精密度,增長檢索的管用性   用戶在搜索引擎網站向上行信息查問時,並不非常關心注視回返最後結果的若乾,而是看最後結果是否和自個兒的需要吻合。對於一個查問,傳統的搜索引擎網站動輒回返幾十萬、幾一百萬篇文檔,用戶只得在最後結果中用篩子選。解決查問最後結果過多的現象到現在為止顯露出來了幾種辦法:一是經過各種辦法取得用戶沒有在查問seo語句中表現出來的真正用場,涵蓋運用智能攝理跟蹤用戶檢索行徑,剖析用戶板型;運用有關度反饋機制,運用戶奉告搜索引擎網站哪一些文檔和自個兒的需要有關(及其有關的程度),哪一些不有關,經過多次交互逐層求精。二是用正文分類(Text Categorization)技術將最後結果分類,運用可視化技術顯露分類結構,用戶可以只瀏覽自個兒有興致的門類。三是施行站點類聚或內部實質意義類聚,減損信息的總量。      



2.基於智能攝理的信息過淋和個性化服務   信息智能攝理是額外一種利用互聯網信息的機制。它運用半自動取得的領域板型(如Web知識、信息處置、與用戶興致有關的信息資源、領域團體結構)、用戶板型(如用戶環境、興致、行徑、風格)知識施行信息尋找收集、引得、過淋(涵蓋興致過淋和不好信息過淋),並半自動地將用戶有興致的、對用戶有用的信息提交處理給用戶。智能攝理具備不斷學習、適合信息和用戶興致動態變動的有經驗,因此供給個性化的服務。智能攝理可以在用戶端施行,也可以在服務器端運行。   



3.認為合適而使用散布式整體體系結構增長系統規模和性能   搜索引擎網站的成功實現可以認為合適而使用集中式整體體系結構和散布式整體體系結構,兩種辦法各有千秋。但當系統規模到了一定程度(如網頁數達到億級)時,定然要認為合適而使用某種散布式辦法,以增長系統性能。搜索引擎網站的各個組成局部,除開用戶接口以外,都可以施行散布:搜索器可以在多臺機器相片比本人好看互合作、互相分工施行信息發覺,以增長信息發覺和更新速度;引得器可以將引得散布在不一樣的機器上,以減小引得對機器的要求;檢索器可以在不一樣的機器向上行文檔的並行檢索,以增長檢索的速度和性能。



4.看得起交錯語言檢索的研討和研發   交錯語言信息檢索是指用戶用民族標准語提交處理查問,搜索引擎網站在多種語言的數值庫中施行信息檢索,回返能夠應答用戶問題的全部語言的文檔。假如再加上機器移譯,回返最後結果可以用民族標准語顯露。該技術到現在為止還處於開始階段的研討階段,主要的艱難在於語言之間在表現形式和語義對應上的不確認性。但對於經濟全世界化、互聯網翻越國界的今日,沒有疑問具備很關緊的意義。



學 術 研 究   到現在為止搜索引擎網站領域的經濟活動研發十分活躍,各大搜索引擎網站企業都在投巨資研究制造搜索引擎網站系統,同時也不停地湧現出新的具備鮮亮獨特的風格的搜索引擎網站產品,搜索引擎網站已經變成信息領域的產業之一。在這種事情狀況下,對搜索引擎網站技術有關領域的學術研討獲得了大學和科學研究機構的看得起。如Stanford大學在其數碼書庫項目中研發了Google搜索引擎網站,在Web信息的高效搜索、文檔的有關度名聲、大規模引得等方面作了深化的研討,獲得了美好的成果。NEC美國研討所的Steve Lawrence和C. Lee Giles 1998年和1999年蟬聯兩年在《天然》和《科學》雜志上撰文對搜索引擎網站技術的研討施行評述。聞名的信息檢索會展TREC也從1998年著手增加了Web Track課題,以考察Web文檔與其他類型文檔在檢乾脆質上的不一樣之處,並將測試在大規模的Web庫(如100G字節)向上行信息檢索的算法性能。由美國Infornotics企業主辦的搜索引擎網站國際遇展從1996年著手,每年舉辦一次,對搜索引擎網站技術施行總結概括、商議和展望,加入者有聞名的搜索引擎網站企業、大學和研討機構的學者,對搜索引擎網站技術起到達美好的推動效用。額外象IEEE主辦的國際萬維網會展、人機交互會展已有越來越多關於搜索引擎網站技術研討的文章刊發。   國內先後有北京大學、清華大學、國度智能研討核心等高校和研討單位對搜索引擎網站技術開展研討,並研發出了幾個較好的系統。如由北京大學計算機系網絡研討室研發的”天網”中英文搜索引擎網站http://pccms.pku.edu.cn:8000/gbindex.htm,在系統規模及系統性能方面達到達海外中型搜索引擎網站系統的技術水准,為國內用戶供給了美好的互聯網搜索服務,遭受了用戶的好評價。