透過分詞看谷歌和百度的收錄排名究竟差在哪裡

一直以來,谷歌在國內的搜索市場上占據不瞭有利的位置,搜索市場份額總是居於30%左右,和百度的競爭也有很多年瞭,可是,始終也沒有占據上風,相信業內的專傢早已對這個問題研究過很多瞭,我的話自然沒什麼權威性,不過,我還是想以自己小小的博客為例,來看看谷歌到底是怎麼輸給百度的。

眾所周知,谷歌是世界搜索巨頭,百度隻是在國內享有盛譽,因此,他們的側重點是有所不同的,這源於外文和中文本質上的區別。英語也好,德語也罷,他們的文字書寫都是一種字母字符語言,而漢語文字相比起來則復雜的多。搜索引擎收錄網頁的基本原理就是把網頁的文字內容抓取,錄取到數據庫中,然後建立相應索引,當人們搜索時,就相當於查詢數據庫中的內容,然後按照索引將內容按照符合條件程度排序,輸出。當然,具體的過程是很復雜的,我也沒有做過很深入的瞭解研究,在此,我就想以一點為核心來研究一個問題,就是分詞問題。

從搜索引擎的原理看出,建立索引的的前面一步工作就是分詞。

什麼是分詞呢,舉個例子:文隨書林 ,這個詞可以有這些分法

1.文-隨書-林;2.文隨-書林;3.文-隨-書-林;

當搜索蜘蛛抓取到這個詞的時候,要跟自身的分詞庫對照,自動找到最符合的分詞分法,然後按照詞組建立索引。 英文的分詞很簡單,他是以單詞分詞,每個句子中的詞語要以空格分開,而中文呢,遠遠沒有那沒簡單瞭。到這裡,就可以看出谷歌輸在百度的一個方面瞭。看個例子:分別在百度和谷歌搜索jialiu,這是結果

這樣看就很直觀瞭。谷歌輸在百度哪裡?就是輸在分詞上!

試想,一個中文分詞數據庫不完善,中文分詞技術落後的數據庫,在國內的中文搜索,能得到廣大用戶的青睞嗎?中文博大精深,中文分詞不當,導致的隻能是搜索者找不到想要的內容,久而久之,這樣的搜索變成瞭沒有意義的搜索,所以,可想而知,谷歌是該好好更新更新他的中文分詞數據庫瞭,要不,就在分詞這一塊,就怎麼也不好跟百度競爭的啊!

國人最常用的搜索引擎是百度,所以做國內的網站,大多數的seoer都在研究百度的SEO,因為百度的分詞太厲害瞭,這就導致在百度做一個關鍵詞的排名難度非常大,即使是該關鍵詞的拼音,也難以做到第一,百度總會先把拼音翻譯成中文再去搜索。相比之下,在分詞稍微落後的谷歌上做關鍵詞的排名就簡單多瞭,中文長尾關鍵詞是最難讓谷歌分詞分好的,這就完全可以利用谷歌的這個弱勢,關鍵詞在百度上做不上去瞭,就換種思路好好做谷歌,這也是很多網站的關鍵詞在百度排名不佳,谷歌排名卻很好的原因瞭。

所以,研究谷歌和百度的分詞,是很有利於seoer做關鍵詞的SEO的。這裡講個方法看怎麼來研究谷歌和百度的分詞。

搜索引擎的基本分詞可以通過快照看出來。比如,在谷歌隨便輸入一個詞搜索,甲型流感,看這張圖,

很明顯,谷歌的分詞是甲-型-流感。如果要做這個關鍵詞的排名,百度強大的分詞技術肯定不會把這個詞拆開吧,而谷歌竟然把這個完整的詞給拆開瞭。所以,現在做這兩個關鍵詞的思路應該是這樣的:

1.百度:此關鍵詞極其難做,原因在於這是並且隻是一個完整的詞,排在前面的全是網易、搜狐、新浪、騰訊等大站,想要做上去非常不容易。要做的,隻能是這一個關鍵詞的堆積。

2.谷歌:谷歌的分詞是把這個完整的詞分開瞭,這樣就形成瞭兩個詞,而這兩個詞,加上不分開的一個詞,相當於百度就是有三個關鍵詞可以做。甲,型流感,甲型流感,哈哈,思路就出來瞭,有三個關鍵詞可以做,即使是關鍵詞的堆積,也可以堆積三個詞,也就是說關鍵詞的密度是甲型流感一個詞的三倍,而谷歌不但不會認為你是作弊,相反會對你很友好喔!

當然,這隻是一個思路,更多的百度和谷歌有趣的分詞還有待細心的發掘,畢竟,這是利用瞭谷歌相對百度的一個劣勢。

現在再通過我的博客文隨書林看看谷歌和百度在收錄方面的些不同吧。

我的博客開通於2009年6月份,在一月之內,博名排名在百度和谷歌始終是第一位,(當然和我博客名字在網絡上的唯一性是有關的,這裡暫且不論)。博客最後更新日期是8月,然後被我荒廢瞭很長時間,近幾天才開始更新。在這期間,百度排名始終第一,谷歌變動瞭很多次,這裡暫且不討論這期間的問題。然後,從我前幾天開始更新開始看,百度收錄良好,也很及時,可是,谷歌蜘蛛總是聽不到我的呼喚,我的博客更新瞭,也不來瞧瞧(有足夠外鏈的前提下),博文不收錄瞭,博客排名都不知哪兒去瞭。

然後,我具體分析分析瞭下,看下面兩張圖:

這是一篇谷歌不收錄我博文的時候我寫的一篇文章,本料谷歌很快就會更新,收錄,沒想到時隔今日,谷歌都沒有收錄,這還讓我花點心思好好研究瞭下。

外鏈充足而且都有最新的,權重也不比我低,所以外鏈一定不是主要原因。那麼原因出在哪裡瞭呢?難道是進瞭沙盒,想想不可能,沙盒期早就已經過瞭。我的博文都是原創,按理谷歌應該很買賬,這次不買帳瞭,到底是什麼原因呢?

從谷歌上沒有分析出原因,百度倒是給瞭我靈感!看下面這張圖:

註意看這張圖,我是同一時間搜索的,這張圖和上面那張的不同之處在於他顯示瞭所有的搜索結果,而這次的搜索結果卻顯示我的原創首發博客的博文排在瞭第二位,這讓人對百度的算法更好奇瞭些,糾其原因,可能是因為我的博客權重較低的原因吧,畢竟我的博客訪問量和文章收錄數和排在第一位的那個靠采集的垃圾站還是有些差距的。以此引申到谷歌不收錄的原因,估計谷歌看我博客這麼久沒有更新,把我的博客編進瞭垃圾站的行列瞭吧,造成權重較低,以至於現在收錄這麼難。

不過,我對與谷歌spider的聰明是從不懷疑的,相信他很快就會識別出來,偶的小博客還是很有價值滴。

文章均屬本人原創,轉載請註明 原文地址:.cn/s/blog_50ad291f0100gpge.html