站長們必須要明白的百度分詞技術

  百度自稱是全世界最大漢字搜索引擎網站,最理解國內網民的搜索習性,做為中國搜索引擎網站的老大,眾多草根站長一直在研討的它的搜索技術和名次算法,還有不少站長昆季姐姐還要靠它的流量吃飯,為此草根網站的站長們對它是又愛又恨,百度能帶來非常大的流量,又會無情的K站或降權。

  好的,那咱們說說百度的分詞技術,有可能小弟有說的錯誤地方,請大家拍碎磚,期望大家並肩進步提高。沒有研討百度分詞前不清楚百度為何比google堅強雄厚.實際上分詞也就是切詞,百度是否拿來一句漢字字符串拿來輕易切一下子呢,當然不會。那末怎麼纔滿意被割切的條件呢?經過下邊的實驗便會發覺假如字符串只裡面含有小於等於3個漢字字符的話,那就保存不動,譬如:節油器這個詞,前提是一個完整的詞,百度是不會切分的,當字符串長度大於4個漢字字符的時刻,百度的分詞手續便會開始工作了。例如節油器價錢,看看回返最後結果中標為紅字的地方,不難見得,查問已經被割切成節油器,價錢兩個單詞了,再試著換一個詞。例如:我們來看交通工具節油器,百度裡提交處理查問一下子,發覺標紅的關鍵字都是每一個是節油器,交通工具,蟬聯顯露出來的事情狀況,可以看見將節油器與交通工具切分成兩個詞,假如我們搜交通工具節油添加劑呢,發覺題目是沒有,網頁內部實質意義比較完整是交通工具節油添加劑,有可能是這個網站還抄沒錄的緣故,這個長尾詞被切成了交通工具/節油添加劑。

  那現我們在來研討一下子百度是分詞算法,經過幾年的進展,百度的分詞算法已經總算相當成熟了,這那裡面也少不得SEOER 的功勞,有一位SEOER的前賢說過:百度的算法有簡單的有復雜的,有正向最大般配,逆向最大般配,雙向最大般配,語言板型辦法,最短途徑算法等等,有興致的可以用GOOGLE去搜索一下子以增加了解。讓我們總結概括一下子吧,這處面也有我私人的料想, 百度領有一個堅強雄厚的辭匯數值庫,裡邊有我們通用所用的各種詞和詞組譬如人名,地名,產品的名字,舉個例子幻影,交通工具,節油器,這些個都是詞庫中有的,在切詞時將專出名稱切出,如添加這個詞,詞庫中沒有,下邊的認為合適而使用雙向最大般配分詞算法,如果正向和逆向般配分詞最後結果完全一樣當然最好,就可直seo接輸出即可;假如兩者不完全一樣,正向般配一種最後結果,逆向般配一種最後結果.

  百度一直自稱是全世界最大漢字搜索引擎網站,但分詞技術也並無特別,或許就是由於百度領有一個超大的專用辭典,這個專用辭典登錄了關鍵字的名字,如:節油,交通工具,能量物質,油價等.這就比google堅強雄厚的一個方面,google在於分詞來說,及詞庫表面化不比百度,這正是google本身要增強的地方.

  筆者:幻影

  出處:http://freedomsky.sgsg.cn/