Zac:Google補充材料的再思考

自從Google取消補充材料標記後,關於補充材料的討論沉積下來瞭。Google隻是取消瞭在搜索結果中標註補充材料,補充材料以及補充索引還是存在的,隻不過我們不能直接看出來瞭。

在經過一段時間的思考後,今天談談對補充材料的更進一步認識。

以前我曾經覺得補充材料和補充索引的引入,很有可能是因為想節省帶寬。但Google最近表明,補充索引中的網頁抓取和更新頻率加快,補充索引中的網頁出現在搜索結果中的機會也提高,說明不是為瞭節省帶寬。

結合一些其他方面的觀察,我現在覺得補充索引是為瞭提高搜索速度。在搜索某些關鍵詞時,Google可能隻搜索主索引,忽略補充索引裡的結果,這樣能大大提高速度。搜索所有關鍵詞都在抓取的所有頁面索引中尋找結果的話,那計算量必然使返回結果的速度減慢。

挑出一部分權重高的網頁進入主索引,把其他權重低的歸入補充索引,可以大大提高計算速度。有的時候主索引中結果不足,才去補充索引中尋找結果。至於在什麼情況下才會觸發去補充索引中尋找網頁不得而知。

以前補充材料被關註的時候,就有朋友認為補充材料並不可怕,因為不少關鍵詞搜索結果中,列在前面的也包含很多補充材料。我想這種觀察是錯誤的。

舉一個例子。現在無法準確判斷哪些頁面是在補充索引中,所以我拿以前談補充材料時一個帖子的抓圖來看點石論壇的一個頁面。

這個頁面/forums/thread-6462-1-1.html,當時是在補充索引中的,我判斷現在也還在補充索引中。首先這個網頁肯定存在於Google的索引庫中,我們可以從Google快照中證實這一點。

如果我們在點石域名內搜索網頁標題+發帖人史安牛的名字,可以發現Google返回結果中包含這個網頁,排在第二位。但是如果我們搜索帖子中的第一句話+史安牛,Google顯示沒有相匹配的文件。要註意,實際上在Google數據庫中,確實存在相匹配的文件,從上面的快照和搜索中可以看出。

如果我們不限定在點石的網站內搜索帖子的第一句話+史安牛,也可以看到這個頁面不被返回。但是如果我們搜索帖子中的第二段的一句話+史安牛,又會發現這個網頁可以被返回。結論是Google確實有兩個索引,主索引和補充索引。在補充索引中的網頁有時候在某些關鍵詞下,根本不參與排名。就算已經被收錄,網頁中有這個關鍵詞,而且沒有其他匹配文件的時候,這個網頁因為是存在於補充索引中,所以根本不會被返回。

HighDiy有一篇關於檢查補充索引替代方法的帖子,很全面深入,但其中一句話恐怕不太正確。他提到Google給出網頁進入補充索引的原因包括網頁not fully indexed,那麼,反過來,如果發現某個網頁的緩存並不完整,即不包涵網頁的全部內容,那麼,也基本上可以判定該頁位於補充索引瞭。我覺得這裡的not fully indexed指的不是緩存不包含全部網頁內容(沒見過這樣的緩存),而是指網頁雖然被完整收錄,但並不參與排名。

所以大量網頁進入補充索引,在很大程度上說明瞭網站的健康情況。補充索引中的網頁,能排到前面的幾率還是大大降低。根據Google的說法,進入補充索引最大的原因是PR值過低。順便做個實驗,我這個帖子有鏈接到點石的那個網頁,過一段時間看看是不是還在補充索引中。按Google的說法,有瞭外部鏈接,應該從補充索引中出來。