郭現保:SEO優化之Google漢字分詞名次權重實際的例子研討

  百度作為第1大漢字搜索引擎網站,它的分詞技術一直都有眾多人在研討,中科院軟件所張俊林寫的那篇《百度剖析算法剖析》的文章可以稱作經典,把它借喻為百度搜索引擎網站漢字分詞研討的《聖經》也不為過,每一個SEOer都應當仔細的閱覽一下子。我今日要說的不是關於百度的問題,而是百度的最大競爭對手——Google(谷歌),在測試Google漢字分詞算法的時刻,發覺了一個有趣兒現象,今日與廣大的SEO朋友們分享。

  Google分詞算法值當我們好好研討一下子。郭現保私人覺得,Google的搜索最後結果頁(SERP)與搜索關鍵字的有關性,表面化大於百度,這是由於Google把搜索關鍵字都拆分成最基本的詞和詞組和單字後,在依據有關性去般配數值庫的中內部實質意義,並且Google拆分後的最基本詞和詞組,絕對是依據辭典裡的詞和詞組般配的,也是說它合乎國度語言案頭工作委員會的規范和標准的,這只限於平常的詞和詞組(公眾人名、聞名品牌名)。

  實際的例子1:測試Google是否有專業表名稱的詞庫

  在Google搜索搜索引擎網站關鍵字,Google會把這個關鍵字短語拆分為搜索—引擎—關鍵—字,這是由於搜索引擎網站和關鍵字都是網絡專業詞和詞組,有可能Google沒有專業詞和詞組庫,所以就被拆分成了搜索—引擎—關鍵—字。

  實際的例子2:測試Google拆分長關鍵字

  在Google搜索他舅WAP流量計數剖析,Google把這個關鍵字短語拆分為他—舅—wap—流量—計數—剖析六局部,WAP是一個英文辭和詞組,涵蓋Google和其它搜索引擎網站普通是不拆分英文辭和詞組的(就算它不是英文單詞),流量、計數、剖析都是合乎國度語言規范的標准詞和詞組,他舅只是中國百姓一個口頭稱謂用語,不合國度語言規范,在辭典中根本就查不到這,所以Google就把他舅拆分成了兩個單字。

  實際的例子3:測試品牌名是否被Google收錄為詞和詞組

  在Google搜索海爾冰箱、惠普電腦、華為通訊、美的電器,五糧液酒,夏利交通工具、北京同仁堂這七個都是聞名的品牌,最後結果是海爾、惠普、華為、五糧液、同仁堂都是單獨的詞和詞組,沒有被拆分為單字,夏利、美的這兩個品牌卻被拆分成了單字。不是全部品牌都能被Google作為一個詞和詞組收錄進品牌詞庫,Google有自個兒的收錄標准的。

  實際的例子4:測試Google是否會拆分成語

  下邊我們搜索一下子韓喬生的經典著名的句子兵貴神速之勢和山清水清秀美麗,最後結果兵貴神速之勢這個短句被拆分成了迅雷—比不過—掩耳盜鈴—之—勢,迅雷是一個合乎漢語言規范的標准詞和詞組,不是指下載工具那一個迅雷,比不過也是一個詞和詞組,掩耳盜鈴也是合乎國度語言規范的成語,之勢不是標准詞和詞組,所以就被拆分為兩個單字。山清水清秀美麗被拆分為了山清水秀—麗,山清水秀是一個成語沒有拆seo分。Google把成語作為幾個基本詞和詞組,不會進一步拆分。

  實際的例子5:測試平常的之間是否有權重高低之分

  搜索大山大河澇災這個關鍵字短語,最後結果Google拆分為大山大河和澇災兩個詞和詞組;而後搜素大山大河澇災情這個關鍵字短語,最後結果Google拆分為大山大河、水、災情三局部,水字沒有和災組成詞和詞組,反倒災和情組成了詞和詞組,這說災情這個詞的權重高於澇災的權重。這解釋明白詞和詞組之間也是有權重之分的。

  依據實際的例子測試推斷:Google會把搜索的關鍵字(短語)拆分為最基本的詞和詞組,這些個平常的詞和詞組都是合乎漢語言規范的標准詞和詞組,不像百度那樣子收錄人工制造表名稱的詞。Google的詞和詞組大概可分為平常的表名稱的詞、地名、人名等幾類,關鍵字(短語)都是從左向右,按權重高低拆分。這些個詞和詞組權重從低到高順次如下所述:人名<平常的詞和詞組<地名<成語<首腦姓名。進一步測試品牌名和人名的權重是同樣,都是最低的,這只是一個大概順著次序,由於同一類詞和詞組還會依據平時運用的頻率進一步的分級,每一級的分配不一樣的權重,所以同一類詞和詞組之間也有權重高低之分。

  依據Google分詞原理我們可以看出,Google的搜索最後結果頁有關性要高百度,由於Google運用關鍵字絕對般配和關鍵字分詞般配兩個條件,去數值庫中搜索有關數值。

  這只是我一點兒不深的研討,有啥子不充足之處請聖手們多多點撥,熱烈歡迎來書施行商議,我的信箱地址是:[email protected]