搜索引擎網站知識 漢字分詞技術

  漢字分詞是將一句話或一個短語依照平時閱覽習性施行機械分解。英文是以詞為單位的,詞和詞之間是靠空格隔開,而漢字是以字為單位,句子中全部的字連起來能力描寫一個意思。例如,我很喜歡搜索引擎網站,分詞的最後結果是:我很喜歡搜索引擎網站。把漢字的中文序列切分成有意義的詞,就是漢字分詞,有點人也稱為切詞。

  漢字每個字都可以直接作為一個詞來運用,沒有斷詞,正由於此它纔多變。固然多變,不過在表現上靈活。不過對於搜索引擎網站來說這是十分難於解決的問題。在漢字分詞之中,有三種難分類型。

  1、交集型多種意思

  如果ABC是一個由A、B、C三個中文構成的字串,假如 AB、BC都是詞,那末計算機在切分時可以把ABC切分為AB/C,也可以切分為A/BC。這種切分多種意思稱為交集型多種意思。

  2、組合型多種意思

  假如AB是詞、ABC也是詞,那末萌生的切分多種意思稱為組合型多種意思。

  3、攪混型多種意思

  攪混型多種意思是裡面含有交集型多種意思和組合型多種意思的切分多種意思。

  到現在為止解決這些個問題主要經過字典和計數學的辦法。

  首先我們先說說字典分構詞法。字典普通認為合適而使用前綴樹和後綴樹的數值儲存結構。啥子是前綴樹呢?實際上就是我們把一個句子從左向右電子掃描一遍,碰到字典裡有的詞就標識出來,碰到復合詞就找最長的詞般配,碰到生字串就瓜分成單字詞,於是簡單的分詞就完成了。後綴樹就是從右向左電子掃描一遍。

  計數學的辦法,固然字典分詞已經解決了眾多分詞上顯露出來的問題。不過面臨眾多新出的辭匯,分詞也面對著挑戰。計數學的分詞形式是基於概念和信息學方面的知識施行處置。基本原理就是尋覓那一些常常一同顯露出來的字,老是互相的字很可能構成一個詞。為此需求剖析數量多內部實質意義。縱然迄今漢字分詞還在不斷進展,還沒有一個分詞辦法能徹底解決一切問題。

  對漢字分詞有興致的讀者,可以閱覽以下文獻:

  1. 梁南元

  文字表達漢語半自動分詞系統

  /demo/LiangNanyuan-JCIP-1987.pdf

  2. 郭進

  計數語言板型和漢語音字改換的一點新最後結果

  /demo/GuoJin-JCIP-1993.pdf

  3. 郭進

  Critical Tokenization and its Properties

  http://acl.ldc.upenn.edu/J/J97/J97-4004.pdf

  4. 孫茂松

  Chinese word segmentation without using lexicon and hand-crafted training data

  http://portal.acm.org/citation.cfm?coll=GUIDE&dl=GUIDE&id=980775

  齊寧 MSN: [email protected]