漢字分詞技術名次:百度、雅虎、谷歌

本人是搜索引擎網站優化技術的喜好者,這篇文章將認為合適而使用大多人都可以看得懂的簡單形式,讓大家欣賞一下子中國三大搜索引擎網站的分詞技術。

很幸運,我們的三大搜索引擎網站都在它們的快照裡把查問語句拆分,而後用不一樣顏色的高亮來顯露,大家可以一目明白地看見它們的分詞辦法。搜狗、有道這些個非主流的搜索引擎網站都沒有這種功能。騰訊搜搜認為合適而使用的是谷歌的內核,快照可以直接看見,不過卻沒有分詞高亮顯露。谷歌已經去掉了快照功能,只有上Google去,況且需求運用攝理服務器還是用一點兒小技法能力看見。雅虎跟易搜運用相同的搜索中心,這次我運用的是易搜,也就是曾經悲情閉幕的一搜,如今馬雲同志好馬勇吃回頭草,成為了易搜,接著造福中國百姓。

分詞技術第1律:紅色搖滾很搞笑

從拆詞的事情狀況來看,谷歌竟至並沒有把搖滾看作是一個詞!它是不是在搞笑?這就意味著,當你的谷歌裡搜索搖滾的時刻,谷歌把這句話也當成候選的最後結果斗牛士搖來搖去,牤子說:本牛不操無名之輩,滾!

雅虎比谷歌更懂漢字!人煙最低限度曉得搖滾是一個詞。

呵呵,這就是業界一直盛傳的百度很牛逼的分詞技術了,把紅色搖滾整個好地看成一個詞,贊。它連很搞笑都看成是一個群體!

分詞技術第二例:比爾蓋茨正在重裝操作系統

谷歌果不其然不給微軟體面,連蓋茨這個名字都不算一個詞,重裝天然也不拉到,更別提操作系統了,感受谷seo歌就像一個絕代武林聖手,把一張紙 拋向空寂,而後喊叫一聲,用手中的利刃唰唰唰唰地把那張紙碎屍萬段。一個美眉淚奔:人煙寫給蓋茨的愛情信,你怎麼把它喜唰唰了?谷歌道:查無此人。

谷歌拆分的身手太幼稚了,雅虎當然勝出,比爾蓋茨和重裝都成了詞,可見馬雲晃動大家說雅虎搜索最好還不算太離格,最低限度分詞比谷歌先進。

百度大亨閃亮登場,一切完美,可以認出操作系統。宏哥果不其然利害,贊嘆服氣。

分詞技術第三例:誰在用吉它彈奏一曲十八摸

谷歌又來喜唰唰了,不服不可以,吉它彈奏都被棒打鴛鴦兩頭散。注意:我的搜索詞內中有一個在字,谷歌一腳把它踢飛,我也淚奔~

雅虎還行吧,咦?曲十八是啥子?是一個風流纔子嗎?橫豎我是不曉得,大家有曉得的M我。

終於輪到最終Boss出場了,老實說,我不寫這篇文章還不曉得宏哥的分詞技術能夠堅強雄厚到這麼的境地!它將我的查問詞用三種辦法來分詞。先下一下子這三張快照:

為何百度會存在多種分詞版本?正如我在授谷歌絕殺百度的獨孤九劍那篇文章裡提到,優秀的分詞策略是這麼:盡力不拆分,需求拆分時,先把長的拆成中的,假如最後結果仍然少,再把中的拆成短的。

當然,這是原則,執行過程中卻並不盡然嚴明依照這種拆分來排序,要看別的參變量。在百度裡搜誰在用吉它彈奏一曲十八摸,有三條搜索最後結果,那裡面只有第二條是涵蓋了完整的誰在用吉它彈奏一曲十八摸,排在第1條的最後結果是誰在用六弦琴彈 奏一曲十八摸,注意,紅色局部與運用的查問語句不一樣。運用吉它百度一下子,找到有關網頁約2,490,000篇,運用六弦琴百度一下子,找到有關網頁 約22,600,000篇。由此可見,六弦琴是比吉它更常運用的詞和詞組,百度把查問語句拆分在這以後,發覺吉它的近義詞六弦琴有可能是更好的詞,於 是,百度將更常用的詞六弦琴接替吉它在這以後將更合宜的搜索最後結果放到第1!弟兄們,不服不可以啊!

百度領有這麼堅強雄厚的分詞技術,加上產品牢穩、靠得住、河蟹,再領有貼吧、曉得等用戶貼性頎長的產品,領有hao123作為把菜鳥導入百度懷抱的利器,怨不得宏哥可以心情安定地去東京打小東洋的心思。正如百度產品部出來的一位朋友說:競爭對手太無需爭辯氣。

百度的分詞技術有啥子弊病嗎?

有。

我上次提到過,在搜上海紫園的詞時,百度不曉得憑啥子,把上海紫看成了一個詞,況且在搜索最後結果裡包括一大堆上海紫的最後結果,嚴重違反了先 不拆,後小拆的原則。在這個詞上,谷歌反而比百度要好,固然谷歌的詞庫細小,可是它用兩個詞相近則領有更高優先級的方法來補救。我的本意是公開贊美一下子百度的 先不拆的令人滿意原則,沒想到卻發覺了百度的一個弊病。百度應該調試拆詞的參變量,不要把上海紫這麼的也看作一個詞。呵呵,應當是我的記憶出問題,我上次 本意應當是讓大家搜索紫園1葇諀的。這個詞就約略能看出谷歌跟百度的搜索區別。

因為兩詞相近優先級高,所以谷歌的分詞技術弊病並沒有假想的那末嚴重,不過在搜索眾多的詞在這以後,會發覺它的最後結果總差那末一點兒兒,這就是差距了,在此 做個小料想,谷歌運用的詞庫來自新華字典,還有可能是小學生版。雅虎的詞庫則來自漢語大辭典,百度估計是自創的辭典,連紅色搖滾都算詞了呀。

實際上我是谷歌的Fans,不喜歡百度和雅虎的經濟活動氣味太重,寫這個名次出來,是期望谷歌的上層注意谷歌自身水准的增長,而不是用拉攏迅雷、天涯這麼的招術,這是歪門邪道,對谷歌的進步提高一無用法。