全文檢索

事實社會形態中,數量多的信息主要以文本文件、超文本文件、多電視臺文件等非結構化文件方式存在,怎麼樣管理這麼海量的信息呢? 首先,務必解決信息的有序儲存問題;其次,要解決信息的迅速檢索問題。



  TBS散布式全文檢索系統



  散布式全文檢索系統適合使用於各種全文數值庫資料的檢索。它的思維規律結構如上所述圖所示,份外網和內網兩個局部。外網與Internet連署,供給www服務,內網供給扼制和數值服務。兩網之間經過TCP/IP協議施行通信,從外網進來的煩請不可以直接到了內網,保證了內網數值的安全。



  Web Server與TBS Server 認為合適而使用Client/Server的結構。EBS Server負責整個兒系統的調度、用戶及職權范圍扼制的辦公,管理全部的數值庫資源,對數值的輸進出行流量計數,對用戶的操作施行日記記錄。用戶過訪本系統時首先由Web服務器WWW-0進入了,而為了增長用戶的過訪速度,Web服務器WWW-1、WWW-2、WWW-3是可由EBS施行一統調度和恣意擴展的。TBS-1、TBS-2、TBS-3、TBS–1、TBS–2、TBS–3是系統的後臺全文數值庫服務器。橫向三個用於儲存安放不一樣的信息內部實質意義,縱向兩個用於儲存安放相同內部實質意義的備案。用戶既可從本地也可長程經過瀏覽器形式或操算數兒據庫形式施行錄入,同時,還可以經過瀏覽器來長程施行信息的瀏覽、檢索和保護。該系統檢索速度快,支持字、詞、長句子的混合檢索,對新增信息能夠實時、半自動追加引得,且能保障空間膨脹率為零。



  多電視臺全文檢索光碟制造及出版系統



  多電視臺全文檢索光碟出版系統適合使用於文件資料選編、白報紙雜志合訂以及網站頁面打包。它支持多種操作系統平臺(Win95/97/98/NT/2000)和多種Web瀏覽器(如Netscape、MS、IE),供給所有組成一套軟件,即裝即用,還可研發以下三種不一樣標准樣式的光碟應用:



  1.絕對基於瀏覽器(CDWeb/CBS)的標准樣式。尤其適合使用於圖文資料檢索。
  2.IE瀏覽器和ActiveX控件接合(InfoView/ Edit)的標准樣式。尤其適合使用於數值庫檢索。
  3.Win32手續(CDMake/CDRun)標准樣式。尤其適合使用於書契、圖形、多電視臺資料的檢索。



  該系統具備以下獨特的地方:



  * 全部頁面均可由用戶靈活調試,易於與HTML頁面掛接;



  * 支持字段/全文檢索、組合檢索等,並可以施行二次檢索、多庫檢索;



  * 支持字段、層級、代碼等多種瀏覽形式,並可在瀏覽時施行二次檢索;



  * 支持圖文混排,支持圖像、視頻文件、動畫等多電視臺信息的直接播出;



  * 支持各種排字款式的WORD/EXCEL/PDF文件,可按原版面風格瀏覽;



  * 系統詞表(11萬)與專業詞表相接合;   * 對於特別應用CBScript模型板語言,可支持編程級的研發;



  * 供給底層全文數值庫DLL擴展接口,用戶可經過 VC/VB擴展應用。



  Internet信息宣布及全文檢索系統



  針對普通傳統數值庫對字段、結構、題目、網站關鍵詞等內部實質意義定義的限止和檢索速度慢的欠缺,Internet信息宣布及全文檢索系統認為合適而使用迅速依稀檢索算法,將結構化數值庫與非結構化全文信息庫完美地結拼湊。它在內網可構築單位工作半自動化管理系統、文檔資料管理系統,在外網可用於構築Internet信息宣布、電子商業上的事務網站平臺。



  該系統的功能獨特的地方如下所述:   



  * 響應速度快,成功實現海量數值庫毫秒級、亞秒級查問;



  * 一次檢索可以跨至1024個數值庫;



  * 對於漢字可字詞接合引得,支持中英文(全角/半角)混合檢索;



  * 具備停用詞( Stop-list )處置和檢索詞思維規律運算(與、或、非、差、優先、相鄰、異或)功能;



  * 支持漸漸迫臨檢索、局部完全一樣般配、距離檢索、近義詞擴檢;



  * 具備Web數值庫管理功能;



  * 支持字段內部實質意義加密/解密和壓縮/解壓縮;



  * 供給系統級、數值庫級、記錄級、字段級、內部實質意義級五級安全控。



  TBS全文檢索數值庫



  “金信橋”從信息管理的最基礎做起,首先成功研發了TBS全文數值庫。



  該數值庫主要針對非結構化文件管理預設,能夠在單庫中管理42億條記錄(每條記錄/字段都可容受恣意長度的信息);定義多種字段類型;樹立多種引得辦法(字段引得、全文引得、層級引得、代碼引得)。額外,它還獨具多值字段、字段加密、內部實質意義壓縮、半自動編碼、用戶辭典等功能。



  對不一樣類型的文件,TBS數值庫系統還自帶數值改換工具,既可將標准款式、特別款式的文本信息裝入到全文數值庫中,也可將各種關系數值庫(如DBF、SQL Server、Oracle、DB2、Sybase等)中的信息直接裝入。



  智能全文搜索引擎網站



  在TBS全文數值庫的基礎上,”金信橋”又樹立了Internet 網站全文搜索引擎網站(NetBot),主要用於對指定網站中的靜態頁面施行頁面信息使聚在一起、全文信息提出取得和引得,准許前臺用戶在瀏覽器中按頁面中的恣意字詞施行全文檢索,並提提供用戶施行分類瀏覽的導航工具。



  NetBot是一個智能化的中英文網頁搜索器,它半自動周期性地電子掃描網站和頁面URL,以便趁早發覺更新的頁面,並去除已經失去效力的URL連署,對數值施行實時更新。額外,它還對設定的URL聚齊施行定時尋找收集、剖析和加工收拾,並半自動將相關信息入庫、引得,為在瀏覽器上的全文搜索供給後臺數值



  網頁模型板編著語言



  為了合適全文檢索系統的使用,”金信橋”認為合適而使用了標准的JavaScript、C、ASP、JSP等語言的語法,研發出了一套語法精練的CBScript網頁模型板編著語言。它要得編譯執行的速度極快,況且供給了數量多的頁面模型板可直接調配使用,還內置了全文數值庫管理、全文檢引得擎、電子郵件收發、新聞文件管理、長程文件傳道輸送、加密/解密、壓縮/解壓縮、身分證驗、資源管理、動態調度等板塊,藉此用戶可施行極具個性化的二次研發。



  金信橋全文檢索系統是到現在為止國內惟一具備三層結構、散布式動態負載平衡、多機並行檢索、超大容積、多語種、多電視臺、高靠得住性的全文檢索系統。以下幾個它派娩出的應用系統都是基於Web研發的,均認為合適而使用模型板技術,運用戶可在不編程的事情狀況下對Web頁面施行靈活改正,並支持多用戶並發檢索及同時保護(沒有用戶數限止)。