搜索引擎網站Yahoo的分類整體體系及性能名聲

到現在為止眾多的搜索引擎網站都是將人工編織的等級式正題目次和計算機檢索軟件供給的網站關鍵詞等檢索手眼接合起來,完成網絡信息資源的團體擔任的工作。Yahoo就是這種等級式正題指南類搜索引擎網站的典型代表。


Yahoo的吸引力,就在於它的可瀏覽式等級正題引得。依照正題樹立分類引得,供給各個方面的分類整體體系結構,並接合高品質的檢索軟件,Yahoo成功地樹立起了一套獨有特別的信息管理和團體機制,要得對網絡信息的各個方面檢索成為事實。現對Yahoo的類目整體體系、分類原理、檢索形式、性能名聲等作進一步的研究討論。


一、類目整體體系

Yahoo由14個基本大類組成,涵蓋Art&Humanities(藝術與人類社會文化)、Business&Economy(經濟活動與經濟)、Computers&Internet(電腦與網際網路/網絡)、Education(教育)、Entertainment(娛樂)、Government(政府)、Health(康健與醫療藥品)、News&Media(新聞與電視臺)、Recreation&Sports(休閑與運動)、Reference(參照資料)、Regional(國度與地區)、Science(科學)、SocialScience(人文科學)、Society&Culture(社會形態與文化)。


依據其領有的信息或網站的多寡及知識團體的需求程度,每一個基本類目前細分不一樣層級的次類目或子類目,愈往下的子類目中的網站其正題愈特別指定。它樹立了一個由類目、子類目等構成的可供瀏覽的相當纖悉的目次等級結構。其類目預設合理,結構完整、各個方面,類目等級層級鮮亮,各級詳略、寬泛程度不相同,因此為網上浩博的信息資源的歸類,特別是確切歸類供給了基礎。


二、分類原理

InternetScoutProject的分類資深專家AimeeGlassel覺得,『印度著身份地位類資深專家和書庫資深專家阮崗納贊的『:焙舼分類法理論整體體系與Yahoo網絡信息資源的主體目次之間存在著關系近的結合』,因此揭示了Yahoo應用分面剖析方 法施行網絡信息資源的分類本質。具體說來,可從以下幾點來深化地了解Yahoo的分面分類原理或基本過程。


1. 認為合適而使用寬泛的正題領域樹立分類引得


為了使其分類整體體系既具備無限的容受性,又具備相當的專指性,Yahoo認為合適而使用較為寬泛的正題領域,通不為己甚析兼綜合的辦法樹立較為完整的分類引得。這與分面分類的思想不約而同,由於將知識分為寬泛的類目即分面,各方面地反映正題內部實質意義以防止列舉式類表的線性單向式的結構正是阮崗納贊『:焙舼分類法的主要原則存在的地方。


2. 依據上下文施行信息內部實質意義的組合


從Yahoo的分類結構表面看,或許會覺得它與敘詞表很相近,由於Yahoo也是運用辭匯而非符號來組成相應的概念詞串。不過,從組合類目標有經驗看,它遠遠比平常的的敘詞表復雜得多。通不為己甚析Web頁面的內部實質意義特點標志,得 到由Yahoo分類整體體系結構中某些類目詞和詞組成的概念詞串或標引詞串,將其放入相應的類目層級中。在Yahoo的概念詞串或檢索詞串中裡面含有的獨立的辭匯都包括自身的姓名,不過一朝與其他詞和詞組合,則萌生了一個上下文關系,領有了一深層級的含義。從這一點兒上說來,與分面分類法也是極為相仿的。


3.利用『:焙舼標記信息內部實質意義


現以『20百年60時代印度在肺結石醫治方面的研討』作為待分類標引的信息內部實質意義來具體考察兩者的標記制度:


在阮崗納贊的『:焙舼分類法中,該內部實質意義標引為:L,45;421;6;253;f.44「N5


用詞接替相應的符號,則為:


Medicine,Lungs;Tuberculosis:Treatment;X-ray:Research.India「1950


假如將分面公式中的相應標點符號用『:焙舼接替,由此所形成的字符串方式就是在Yahoo中用於描寫信息內部實質意義的 辦法,相應地表達為:


Health:DiseasesandConditions:Tuberculosis


可見兩者在信息描寫上何其相仿!Yahoo利用『:焙舼作為一統的中間隔斷符施行了信息內部實質意義的團體和描寫,既保存了 起初的分面標記的獨特的地方,又在一定程度上簡化了標記制度,因此莫大地增長了信息分類標引的速率。


4. 供給不一樣的分類途徑入口


『虛擬的信息聚齊』是Yahoo的一大長處,表現出來在其領有的概念標准樣式和援用次第(即分面排列次第)的靈活性 上。在傳統的書庫中,一本書只能放在書架的某一固定位置上。但在數碼化的世界裡,電子信息資源卻無須再限止在惟一的物理位置上。我們可以將某一信息源分到類目結構的不一樣位置上。經過將分面剖析辦法應用到網絡信息資源的團體中,Yahoo能夠為某一信息源在其很大的分類等級結構中供給不一樣的途徑分支入口,這麼就使其能夠從不一樣的途徑,為檢索相同內部實質意義的不一樣用戶供給服務,因此完成查問。


例如,現欲查尋美國Wisconsin-Madison大學存在的地方的網頁,Yahoo就能供給如下所述幾種分類或檢索途徑:


(1)若從Regional:類目著手,則相應的分類途徑為:Regional:U.S.States:Wisconsin:Cities:Madison:Education:CollegesandUniversities:
UniversityofWisconsin-Madison。


(2)若從Education類目著手,著手的幾級途徑為:Education:HigherEducation:CollegesandUniversities,在CollegesandUniversities目次下挑選地理地區范圍的子類目『UnitedStates@』後,可以看見,又回返到Regional目次下,在這以後就與上面所說的途徑相同了。那裡面的玄妙就在於符號『@』的使用,它供給大致相似於有關參考(crossreference)的效用,能夠指點引導用戶由某一子類目進入了Yahoo的瀏覽性等級結構的其他分支中。


三、檢索形式

Yahoo能夠供給簡單檢索和細節檢索。前者主要檢索其分類結構中的一級目次,後者可運用網站關鍵詞構成布爾思維規律式施行檢索,其檢索軟件主要由OpenText企業供給。兩者的接合可以稱作珠聯壁合:一個供給堅強雄厚的高品質的正題指南目次,另一個則供給高水准的檢索工具。並且,Yahoo在檢索時,也不止檢索自身的正題目次,同時也會相應地檢索OpenText企業供給的收有100萬Web文件的OpenText數值庫。


誠然,Yahoo在檢索形式上上存在著一點欠缺,如:只能施行網站關鍵詞檢索,況且只支持布爾算符and和or,未供給near等,但經過在其主頁的最後的部分供給了其他引擎如ALTAVISTA、LYCOS等的超鏈接,指點引導用戶進入了這些個地方去搜索,因此補救了Yahoo的多少欠缺。因為這個,從總體上說來,Yahoo還是是WWW上最流行的查問工具之一。


四、性能名聲

作為正題指南類搜索引擎網站的典范,Yahoo具備以下長處:


1. 正題目次與檢索軟件的完美接合


認為合適而使用分面剖析的辦法,由信息管理資深專家編織正題目次,反映了許多人在挑選和團體信息時的知識和智慧,增長了目次編織的品質。同時,依照正題目次以人工為主對提交處理的網頁施行用篩子選、歸類和團體,也能不斷克服天真由搜索軟件半自動完成分類的欠缺,加強分類的頭緒性。鑲嵌相應的檢索軟件或工具,並與之相集成,供給高質、高效的檢索服務,因此加快了系統的反映速度,增長了檢索的正確性,要得檢索最後結果更近用戶的信息需要。


2. 信息檢索困難程度的減低


Yahoo的數值庫依照14個大類(各大類下又裡面含有數目不等於的小類)團體,其分類整體體系十分纖悉,因為這個是施行寬泛正題檢索的令人滿意起點,尤其是對於那一些新用戶和依稀需要的用戶而言,挑選瀏覽可逐級展開的正題引得比建構檢索式要天然得多。況且,在用戶存在的地方的類目前,顯露了該級別的類目裡面含有的條目數,假如用戶覺得數目過多,還可在此范圍內運用網站關鍵詞檢索。Yahoo的目次特點標志和利用上下文的服務要得能夠成功實現迅速和容易的檢索,seo因此在一定程度上減低了互聯網信息檢索的困難程度,增長了系統的用戶友善性。


3. 檢索最後結果的分類挑選


Yahoo由分類途徑著手,最後將檢索結構分成類目輸出,因此將莫大地推動信息的挑選。它還對最後結果列表中的相應內部實質意義施行不可缺少加工,加上一點描寫的詞和詞組或句子,便捷用戶瀏覽並挑選:如:〔*〕或〔cool〕標記表明該最後結果項在內部實質意義和版面預設都優於其它項;〔new〕表明是近來三號內收錄的最新內部實質意義;以及上面所說的提及過的以『@』表達有關參考,以括號裡的數碼表達收錄的文件數目等等。額外,Yahoo增加了最後結果顯露的類型,可以以有關網站、有關網頁、新聞等方式輸出相應的檢索最後結果。總而言之,為了更好地成功實現為用戶服務的目標,Yahoo正不斷研發新的路徑和辦法用以改善信息檢索服務。


在總結概括Yahoo所具備的優勢的同時,也應注意它的欠缺,這些個欠缺往往也正是正題指南類搜索引擎網站的並肩弊端存在的地方:


1、因為互聯網信息的迅猛提高,要得搜集信息的速度遠遠不比網絡資源的提高速度,更勿論編織正題目次的速度了。這就導致了所樹立的數值庫規模較小,且在某些類目前使聚在一起的文件數目有限等欠缺,要得用戶常常『乘興而來,掃興而歸』,滿意不成相應的信息需要。


2、簡單檢索表中檢索詞之間缺省設置為『.or.』,且內含的半自動截詞功能,要得在檢索中往往會顯露出來很多不有關的文件,造成查准率減低。


3、為了適合不一樣用戶的查問或檢索需要,Yahoo對相同的信息內部實質意義往往能供給不一樣的途徑入口,並以符號『@』樹立相應的參考。這一方面加大了分類辦公的困難程度,另一方面也要得其分類的完全一樣性難於獲得確切保證,所以,常常顯露出來從某一途徑著手,卻沒有辦法查到Yahoo中所裡面含有的信息內部實質意義的現象。


4、待收錄的網頁或其他信息內部實質意義的復雜度的增加也在無形中加大了確切分類的困難程度,如與ActiveX技術有關的文獻就很難在Yahoo中確切歸類。


5、為了編織高品質的正題目次並跟上網絡資源進展的速度,務必投入相當大的人的勞力、物力和資力,且對投身該項辦公的擔任職務的人的素質能力要求也一天一天慢慢地增長。否則,將沒有辦法美好地保障其正題目次的品質,也就從根本上沒有辦法供給優質的服務。


五、啟發和提議


Yahoo最關鍵也是最成功之處就在於它為搜索引擎網站,特別是正題指南類的搜索引擎網站的預設和研發建立了『摸板』。吸收Yahoo先進的搜索引擎網站經驗,進一步完備網絡信息資源特別是漢字信息資源的團體和管理,是歷史給予我們的責任。現就樹立網上漢字信息資源的高質、高效的『導航器』,提出以下幾點提議:


1、Yahoo在數碼化信息的團體中成功地應用分面剖析的思想,樹立起了一套完整、各個方面、等級層級鮮亮的正題目次整體體系以增長信息團體的品質,這一點兒值當我們吸收與學習。


到現在為止,國內的很多漢字引擎還是因沒有分類途徑入口,而不可以跟上未來勢頭的進展;還是因目次整體體系匱缺不可缺少的分類正題理論基礎,而給信息確實切歸類和正確檢索帶來了一系列的艱難。我們並不盡然要照搬Yahoo的分類標准樣式。在具體的編織過程中,應從其中國人的思惟習性、檢索習性動身,接合國內已有的正題分類的理論整體體系(如:《中圖法》等),樹立所需的分類框架。


2、應逐層增大數值庫的規模,因此是穩定成功的信息檢索的事物基礎。提議可以經過兩種形式補給數值庫的內部實質意義:一是激勵用戶將自個兒網頁的地址(URL)經過聯機表格當面送交,二是由自身的到各處觀察軟件不斷去發覺網上新顯露出來的文件,將之納入數值庫,在補給的過程中,也應注意數值庫內部實質意義的定期更新。關於這一點兒,如今的一點漢字搜索引擎網站做得還很不夠,往往只知認識不清地補充信息,卻匱缺對庫內部實質意義應有的保護辦公,造成數值庫極大臃腫,檢索速率低,信息內部實質意義過時的,查准率差。


3、鑒於天真倚賴手工施行信息歸類速率低的欠缺,應在這方面增強研討,思索問題是否可將到現在為止在文本背景中已經成功實現並在進一步完備的半自動分類、半自動標引和半自動文摘等處置信息內部實質意義的手眼用到網絡信息資源的團體上來。手工和機器匡助的接合,定能增長辦公速率,改善信息團體、管理的品質。


額外,應接著增強檢索軟件的研究制造和研發辦公。WWW網頁內部實質意義多由圖像、動畫、聲響、視頻文件等多電視臺信息構成。應積極考求這一類信息的檢索路徑,而不止限於網站關鍵詞檢索形式。到現在為止,對多電視臺信息的儲存,標引和檢索正一天比一天引動計算機和信息管理領域人士的注意。應關系近跟蹤這方面技術的進展,並將其切合實際應用到漢字引擎的檢索軟件的編織上來。


4、參加信息搜集、用篩子選和團體辦公的擔任職務的人素質能力的高低將直接或間接影響到編織的正題分類整體體系的品質。因為這個,各個投身網絡信息服務業的部門或公司,特別是研發漢字搜索引擎網站的部門或公司,應切合實際增強擔任職務的人的培養訓練,尤其是增強它們在信息分類團體、計算機檢索等方面的有經驗。網絡信息資源的團體和研發是一項困難而又富裕前景的辦公,廣大的圖書機密界人士、信息管理和計算機領域的資深專家應盡量加快轉變觀念,參加到研發的行列中來,因此不斷增長隊伍的素質能力。