半自動分詞與漢字搜索引擎網站

作者一直投身漢字半自動分詞的研討,那裡面一個素朴的想法就是該研討對WWW上的漢字搜索引擎網站一定會有利,但又每常為開放背景下半自動分詞難於達到滿足的精密度而痛苦煩惱。最近忽似有所悟,在此將點滴體會開具來,以拋磚引玉。一個關於漢字搜索引擎網站的『有趣兒』體驗認識
  先講一段作者的『有趣兒』經歷。一日,偶然性想在WWW上查尋與東洋『和服』相關的資料。敞開Yahoo China(http://cn.yahoo.com/)的搜索引擎網站,很天然地挑選『和服』作為query。
  檢索最後結果絕對出乎意料:找到達255個『有關網站』,卻鮮有與『和服』有關者,如:『中國人材熱線 GB – 供給誠聘及求職的資訊和服務』。在255個網站中逐個檢查實不可以勉強承受,從新(即獨立於曾經的檢索最後結果,下同)鍵入『和服』 and 『東洋』,期望能由大變小搜索范圍。這次不得不到一個與『和服』有關的網站:『寧波市江東星星絲織腰帶廠 GB – 投身東洋和服腰帶的紮花及制作』。



  作者不信任諾大的Yahoo China僅存此碩大的果實,故又試『和服』 and 『裙子』。這次共回返45個網站,但有關的仍只有『寧波市江東星星絲織腰帶廠』,檢索精密度為1/45。作者著實覺得迷惑:難不成實在要守寶山白手而歸嗎?腦際中忽跳出一個極美妙好詞:『日式』,上緊鍵入『和服』 and 『日式』,終於挖出不少『寶』來:回返了1140個網頁(不知為何,查的是『有關網站』,操作也與曾經絕對相同,但反饋卻死活都是『有關網頁』),那裡面不缺少與『和服』有關的內部實質意義,如:『和服文化『,下邊是和服、日式裙子商品的市場和其它纖維制品市場的比較圖……』終於『大功告成』,當初心中一陣子輕松。過後回憶此事,卻感到不那末簡單:假如想不出『日式』這個詞,還要試若乾個其它詞?又有若乾個有關的網頁作者根本就無從曉得?不確認性太強了,仿佛好象並不很易琢磨。檢索好似成了一門『藝術』,而不是一門『技術』。



  漢字搜索引擎網站性能的開始階段的測試
  這一段體驗認識促推我對漢字搜索引擎網站的性能做了一seo個開始階段的的調查。當初我正在香港大學講學,於是要求50名香港大學的學生人人向Yahoo Hong Kong(http://hk.yahoo.com/)鍵入一個有興致的詞作為查問,而後作別考察所查問的檢索精密度。檢索精密度定義為:檢索出來的與查問真正有關的網站(頁)數/檢索出來的網站(頁)數。假如檢索出來的網站(頁)大於50個,則只考察前50個。



  這50個檢索詞及所對應的檢索精密度(%)如表1所示。
  檢索最後結果表明,Yahoo Hong Kong沒有做分詞處置,均勻檢索精密度僅為48.8百分之百,那裡面二分之一是垃圾。表2列出了局部檢索實際的例子。從檢索不正確來看,事情狀況相當復雜,牽涉到漢字半自動分詞的多種方面,涵蓋交錯多種意思(如『研討生活習性學理論及應用』。下劃線指使檢索詞,下同)、組合多種意思(『推動以人為本的教育』)、中國人名(如『山東安百合律拜某人做師傅務所』)、異國人名(如『海倫和約翰』、『紹介興酒井辦法』)、 中國地名(如『泌陽縣雙廟街鄉』)、異國地名(如『埃及和約旦』)、機構名( 如『掌氣象功療法核心』)、縮簡語(如『中大型ERP軟件』)等。



為了粗估分詞系統對漢字搜索引擎網站有可能帶來的影響,作者用清華大學自行開發的漢字分詞系統CSeg&Tag對與這50個詞有關的122個典型例句(均由Yahoo Hong Kong 給出,涵蓋『檢索不正確的例子』78句及『檢索准確的例子』44句,那裡面局部例句見表2)施行了半自動分詞,分詞最後結果如表3所示。



  總體上,對這122句的分詞准確率為76.2百分之百。如果這可在一定程度上反映對50個詞檢索出來的全部句子的分詞最後結果的話,則檢索精密度則可以從48.8百分之百昇漲到76.2百分之百。可見,固然到現在為止分詞系統的性能距理想狀況還有相當的距離,對搜索引擎網站的效用也是所說的的『有一利也有一弊』,但衡量好處害處,仍然利大於弊。換句話說,分詞技術在搜索引擎網站中是可用的。



  進一步剖析CSeg&Tag系統分詞出錯的29個句子, 還可以分為兩類:第1類(共11句),基本上是因為對未登錄詞沒能做准確的處置, 被切開了, 但幸運的是,該詞的邊界並沒有同四周圍的其它詞萌生糾紛(如『聯 有 機器 有限企業』);第二類(共18句),則是還是把詞的邊界搞錯了(如『掌
氣象 功 療法 核心』),還是不該合的成分被看做一個『詞』合起來了(如『含 學會 及第 十 屆 亞洲 醫學會 大會 紹介』)。第1類對搜索引擎網站的影響,在效果上與不做分詞處置的一致,
  所以,假如加上這11句,針對50個詞的檢索精密度有希望由76.2百分之百增長到85.2百分之百。第二類對搜索引擎網站則屬致命傷,是我們最不期望也是最怕遇見的事物樣子。再仔細剖析一下子,
  那裡面有的事物樣子經過簡單的規則可以解決(如『及第』,假如後面緊跟數詞,普通應分開),但大多事物樣子並不由得易應對,甚至於在WWW背景下,我們連到盡頭會碰到若乾大致相似的事物樣子都沒可能預先推測出,更不必論及管用解決了。經驗奉告我們,無論投入怎樣的盡力盡量,分詞系統永恆沒可能在開放背景下達到完美境界——這意味著我們在建構漢字搜索引擎網站時,務必首先接納這麼一個基本如果:再壯健的漢字分詞系統在處置真實文本時也會必然性地發生某些不可以預先期待的不正確,而能達到90百分之百的分詞精密度已經是謝天謝地了,顯露出來不正確是定然的、正常的。研討漢字搜索引擎網站的機制也好,算法也罷,打算增長檢索的召回率也好,非常准確率(精密度)也罷,務必在這個基本如果向上行,否則無異於緣木求魚。



未來的開發方向
  鑒於以上商議,作者覺得:面向搜索引擎網站的漢字分詞系一統定是基於一個字詞混合的板型,相應的文本檢索機制也一定是字詞混合的。而針對這種板型和機制的研討必然變成未來幾年內漢字半自動分詞系統及漢字搜索引擎網站系統開發中的最前沿與熱點課題。



  作者獲得的另一個啟示是:漢字搜索引擎網站關於不一樣詞的響應特別的性質存在著非常大的差別,譬如,縱然不分詞,對『旗袍兒』的檢索精密度仍可達到100百分之百,對『土人』的檢索精密度則為0。我們有不可缺少對所有漢語常用詞做窮舉式的逐個調查:相對於漢字搜索引擎網站,該詞的『響應』特別的性質怎麼樣?是否存在某種簡捷的解決方法(如『土人』幾乎均顯露出來於『風土人情』中)?還是索性受研討水准的限止,到現在為止根本就沒可能找到解決之道?等等。這項調檢查核對預設基於分詞技術的新一代漢字搜索引擎網站將是一個頗具價值的基礎性辦公。