做網站請剖析百度的分詞技術

  百度自稱是全世界最大漢字搜索引擎網站,最理解國內網民的搜索習性,做為中國搜索引擎網站的老大,眾多人草根站長一直在研討的它的搜索技術和名次算法,還有不少站長昆季姐姐還要靠它的流量吃飯,為此草根網站的站長們對它是又愛又恨,百度能帶來非常大的流量,又會無情的K站或降權。

  好的,那咱們說說百度的分詞技術,有可能小弟有說的錯誤地方,請大家拍碎磚,期望大家並肩進步提高。沒有研討百度分詞前不清楚百度為何比google堅強雄厚.實際上分詞也就是切詞,百度是否拿來一句漢字字符串拿來輕易切一下子呢,當然不會。那末怎麼纔滿意被割切的條件呢?經過下邊的實驗便會發覺假如字符串只裡面含有小於等於3個漢字字符的話,那就保存不動,譬如:拖曳器這個詞,前提是一個完整的詞,百度是不會切分的,當字符串長度大於4個漢字字符的時刻,百度的分詞手續便會開始工作了。例如拖曳器價錢,看看回返最後結果中標為紅字的地方,不難見得,查問已經被割切成拖曳器,價錢兩個單詞了,再試著換一個詞。例如:我們來看衡水拖曳器,百度裡提交處理查問一下子,發覺標紅的關鍵字都是每一個是拖曳器,衡水,蟬聯顯露出來的事情狀況,可以看見將拖曳器與衡水切分成兩個詞,假如我們搜衡水助康醫療器械呢,發覺題目是沒有,網頁內部實質意義比較完整是衡水助康醫療器械/),況且這個辭典在不斷的擴大充實一點新詞,一點新詞不斷的被收錄,這就比google堅強雄厚的一個方面,google在於分詞來說,及詞庫表面化不比百度,這正google本身要增強的地方.