淺談搜索引擎百度分詞技術

阿霸為瞭讓大傢更好的理解如何去選擇關鍵字詞,特意做瞭一些分詞測試試驗,歸納瞭一些關於搜索引擎百度分詞的經驗向大傢分享。希望可以幫助站長們更深層的理解搜索引擎分詞技術,做好自己的網站,獲得更好的排名。

一、搜索引擎中文分詞技術

搜索引擎中文分詞技術簡單來說,就是把中文的漢字序列切分成有意義的詞組。

分詞例子:我/是/一個/學生

二、搜索引擎分詞技術簡述

1.基於字符串匹配的分詞方法

按照一定的策略將待分析的漢字串與一個極其詞庫中的詞條進行匹配。

常用分詞的方法:

正向最大匹配法(由左到右的方向)

分詞測試例子:我/有意/見/分歧

反向最大匹配法(由右到左的方向)

分詞測試例子:我/有/意見/分歧

據大量測試數據統計結果表明:單純使用正向最大匹配的錯誤率為1/169,單純使用反

向最大匹配的錯誤率為1/245。逆向匹配的切分精度略高於正向匹配。

2.基於統計的分詞方法

相鄰的字同時出現的次數越多,就越有可能構成一個詞。用於系統自動識別新詞。

3.基於理解的分詞方法

在分詞的同時進行句法、語義分析,利用句法信息和語義信息來處理歧異現象。

三、百度搜索引擎分詞技術分析

1.最大分詞詞長

分詞測試查詢:當然以

分詞技術歸納:少於等於3個中文字不切割

分詞測試查詢:電影下載

分詞技術歸納:對於大於等於4個漢字的詞將被分詞

2.分詞匹配算法

分詞測試查詢:查詢:工地方向導

正向最大匹配:工地/方向/導

反響最大匹配:工/地方/向導

百度采用 正向最大匹配算法

分詞測試查詢:鄧小平安定軍山

正向最大匹配:鄧小平/安定/軍/山

百度分詞結果:鄧小平/安/定軍山

分詞結論:百度識別人名、影視、戲劇名等專用詞,轉用詞庫分詞時優先。

分詞測試查詢:何潤東西南北(何潤東、東西南北兩個詞)

正向最大匹配:何潤東/西/南北

分詞技術歸納:首先用專用詞典采用最大正向匹配分詞,切出部分結果;剩餘沒有切分交給普通詞典,同樣采取正向最大匹配分詞。

關於搜索引擎分詞技術,阿霸這次就先寫到這。但是搜索引擎的分詞技術遠遠不止這些,分詞中的一些難題,如歧義識別、新詞識別、拼寫檢查錯誤提示、拼音提示功能、相關搜索提示等深一些的日後有機會再向大傢一一介紹。

大傢有興趣進一步瞭解這方面的相關知識,可以來我們的交流群一起交流。

中國站長資源網超級群-(500人)群號:47788123 (群共享中很多SEO資源、網站運營資源供群友下載!)

建群目的:幫助站長們解決問題,菜鳥老手一視同仁,能教就教!能幫就幫!