Google簡體漢字搜索不起作用的權威詮釋

Google簡體漢字搜索不起作用的權威詮釋

搜索引擎網站 9238 2002.2

---元月二十五號,google著手28天一次的引得庫例行更新。從這以後,網友很快發覺google的簡體漢字搜索不靈了,某些常見辭匯如『中國歷史』、『生辰歡樂歌』、『華盛頓郵報』等,都搜不到最後結果或只能搜索到很少的有關性很差的最後結果。同時,也有網友發覺,少量簡單網站關鍵詞如『李白』、『歷史』的搜索還是正常,而英文搜索也正常。網易、雅虎、www2等庫更新比google晚,著手還能正常搜索,但一天在這以後,也變得和google同樣不起作用了。

---從這以後,網上著手顯露出來各種料想,料想google封了中國用戶ip的有之,料想google為了不與合作門戶競爭而關閉主站的有之,料想google即將對用戶收費的有之,料想google因政治端由被封殺的有之,料想有人弄鬼的有之,料想google由於例行更新而這麼的有之。

---以上料想,通通都是錯的。

---作為中國最癡迷最狂熱的搜索喜好者,作為以普及漢字搜索為己任的人,作為寥若晨星的可詮釋此現象的人,作為到現在為止最理解此事,能做出最明白詮釋的人,眼見網友著手被誤導,搜索引擎網站 9238表決,給出簡單但准確的詮釋。

---google的問題,出在漢字分詞上。到現在為止,google對用戶輸入的簡體漢字網站關鍵詞,不做分詞就施行檢索,所以造成各種奇怪現象。 ---要了解這個問題存在的地方,要從其中文搜索引擎網站 的獨特的風格提起。

---漢字搜索引擎網站 ,跟英文搜索引擎網站 最大的差別是分詞。由於漢字的字與字之間是沒有間隔的,人閱覽的時刻能半自動鑒別組合一個句子中的各個單字,看見的是有意義的詞和詞組。而計算機不是人,漢字的單個字匱缺意義,所以要先由手續把漢字詞和句子切分成合理的字詞單元。

---舉例來說,這句話『第1門反後坐大炮』,人閱覽時能半自動分出那裡面的有意義單元,把它當做『第1門 反後坐 大炮』,對於計算機,這就是一個半自動分詞的步驟。漢字搜索引擎網站 ,就是把全部網頁上的書契,用分詞手續預先切分好了,對於搜索引擎網站 來說,它並不意識網頁上的一句話『第1門反後坐大炮』,它只曉得,哪一個網頁中有『第1門』、『反後坐』、『大炮』這3個字詞單元,你搜索那裡面不論什麼一個字詞單元(如『反後坐』)時,搜索引擎網站 就把這個網頁抽取來,並把全部包括『反後坐』這個字詞單元的網頁抽取來,再依照某種算法排序,最後把搜索最後結果生成頁面回返給用戶。

---假如你把這句話 [第1門反後坐大炮] 輸入搜索框檢索,那末漢字搜索引擎網站 也需求先把你這句話切成『第1門』、『反後坐』、『大炮』3個字詞單元,而後去引得庫裡尋覓包括這三個字詞單元,並且這3個字詞單元連在一塊兒的網頁,再按有關算法排序。

---而假如你輸入 [第1門 反後坐 大炮] 三個字詞單元,用組合網站關鍵詞檢索,那末漢字搜索引擎網站 就去找出包括這三個字詞單元的網頁排序,但不再要求這三個字詞單元務必銜接。

---而假如搜索引擎網站 錯誤漢字網站關鍵詞作切詞,只看做一個完整的字詞單元去搜索,那末當你輸入 [第1門反後坐大炮] 時,是搜不到不論什麼最後結果的,由於搜索引擎網站 覺得沒有不論什麼網頁中包括『第1門反後坐大炮』這個字詞單元,搜索引擎網站 只曉得有的網頁中包括連在一塊兒的三個字詞單元『第1門』、『反後坐』、『大炮』,還是只曉得有連在一塊兒的五個字詞單元『第』、『一門』、『反』、『後坐』、『大炮』。
(分詞的效果是一個漸逐漸進展步的過程,到現在為止並不完美,各家搜索引擎網站 也不一樣,有的搜索引擎網站 也有可能把這句話分成『第』、『一門』、『反』、『後坐』、『大炮』五個字詞單元)

---如今你清楚google的怪現象了。由於google把全部輸入的漢字網站關鍵詞只作為一個字詞單元來搜索,不過在預先對網頁做引得的時刻已經對網頁上包括的跟你輸入網站關鍵詞相同的書契作分詞的,所以google覺得,沒有不論什麼網頁包括你輸入的字詞單元。錯非,有點特別網頁上的書契本身就是看做一個字詞單元切分的,跟你輸入的搜索網站關鍵詞能對上,那就能搜出來。還是,你輸入的壓根兒就是最簡單的字詞單元如[李白]、[歷史]、[搜索],那末搜索最後結果還是是正常的。

---舉例來說,網站關鍵詞 [華盛頓郵報] ,google在做引得庫時普通把它切分成3個字詞單元『華盛頓』『郵』『報』,但也會把少量網頁中的『華盛頓郵報』看做一個字詞單元來切分。這麼,當你搜索 [華盛頓郵報] 時,假如google沒有切分,那末只能搜索出少量包括『華盛頓郵報』這個字詞單元的網頁。假如半自動切分成『華盛頓』『郵』『報』再搜索,那末會搜索出全部蟬聯包括『華盛頓』『郵』『報』這3個字詞單元的網頁,由於這原來是這樣引得的,所以這會獲得最准確的最後結果。

---不過如今google不分詞,假如你自個兒先分好詞再搜索,如搜索 [華盛頓 郵 報],那末搜索最後結果基本仍然有的,只是會雜一點兒,多一點兒,多了一點『華盛頓』『郵』『報』這3個字詞單元沒連在一塊兒的網頁。

---你自個兒先分詞再搜索,由於不再限止各字詞單元銜接,所以搜索出來的最後結果有關性視你用的網站關鍵詞而定,有可能很差,也有可能美好(假如包括特別字詞單元便會較好)。這種事情狀況下,我琢磨出一個針對性的搜索技法,就是運用英文雙引號,把幾個字詞單元強制進行定義為詞和詞組來施行搜索。譬如搜索 [舒迅],不得不到兩個無用最後結果,但搜索 [舒 迅],就獲得幾萬條無關最後結果,這時你可以加英文雙引號搜索如 [“舒 迅”]。搜索效果仍然牽強湊合可看的。
額外,再教你一個偷懶的辦法,就是英文雙引號可以只輸前二分之一,效果也是同樣的,如網站關鍵詞[“舒 迅”]和[“舒 迅]的搜索效果是相同的。當然,假如你壓根兒就想用組合網站關鍵詞搜索如 [生辰歡樂 歌],那末如今自個兒要先分詞成[“生辰 歡樂” 歌],這時就不可以省後半個雙引號了,否則就成了要求『歌』這個字緊跟在『生辰歡樂』在這以後,搜索效果理論上就還不如不硬要求它緊跟了。

---好,google簡體漢字搜索忽然不起作用的直接端由和原理,大家都已明白了,是沒有對你輸入的網站關鍵詞分詞。不過導發分詞不起作用的間接端由,就只有google企業自個兒曉得了,有可能是這次引得庫更新中的誤操作引動的,有可能是某方面的忽略引動的,也有可能是某種新的代碼或設置引動的,還是其他我們沒有辦法想像的端由造成。

---從技術上來說,這只是一個小case,我想google如今有可能還不曉得此事,假如它曉得這個問題,普通來說很快就能還原過來。有人已給過它email提示此事了,但它收到email多,處置比不過時,不曉得啥子時刻能注意至此事,這是海外大企業的欠缺,國內用戶溝通渠道不暢。

---從搜索引擎網站 的打理上來說,這是一個嚴重過錯,其嚴重性幾乎僅次於服務器當機了。由於它也造成合作火伴雅虎和網易的網頁搜索沒有辦法正常運行,很難想像雅虎這種穩當可靠定性和品牌看得那末重的企業會原諒這種過錯。

---對於google簡體漢字搜索的不起作用,我既詮釋了端由和原理,我也紹介了牽強湊合的解決方案——自個兒先分詞再搜。當然,你自個兒分詞是很累的,你要麼斷料想搜索引擎網站 的分詞辦法,只要有一點兒分得錯誤,你就搜不到滿足的內部實質意義,縱然絕對分對了,也不可以保障獲得滿足的搜索最後結果。譬如上所述邊提到的『華盛頓郵報』,假如你覺得『郵報』很常見,自個兒用[華盛頓 郵報]來搜索,那仍然沒最後結果的,假如想把全部網站關鍵詞都拆分成單字來搜索譬如[搜 索 引 擎],那末搜索效果也和[搜索 引擎]、[搜索引擎網站 ]迥然不一樣。值當一提的是,百度的漢字搜索引擎網站 在以往時期默默進步提高,最近還上了網頁快照,普通的漢字搜索,效果是不賴的,假如你如今不願意自個兒先分詞再用google搜,那末可以試驗另一個解決方案——用百度搜索()。