中英文搜索最後結果的一個小實驗

眼珠子追蹤研討的研討者發覺,中國搜索引擎網站用戶閱覽搜索最後結果的頁面較長,並將這一端由局部歸罪於漢字方塊字的建構與表義形式不方便閱覽。對此大輕視不贊同。

漢字的確不是一種適應互聯網廣泛散布的書契,這已經變成一種共識(其端由並不是本篇要商議的問題),我也並無不同的意見。但具體到研討者的歸因,卻並不可以讓人相信和佩服。

在字號、間距、行距等相同的事情狀況下,相同平面或物體表面的大小(印刷或熒幕顯露)的漢字所裡面含有的信息量要長遠於英文。好幾年前的語文課上,就常常會拿聯手國相同文件的各語言版本中,漢字版最薄來舉例解釋明白。這點,應當並無不同的意見。

百度的搜索最後結果頁面,每項最後結果由題目和三行以下提要組成;Google.com的搜索最後結果中,每項最後結果由題目和兩行以下提要組成(中英文都是這麼)。這麼,平面或物體表面的大小類同,每項漢字最後結果供給的信息量(請機械了解,不要作為管用信息量等來了解)沒有疑問也是遠超英文(並且百度的平面或物體表面的大小更大,同理愈甚)。這應當是一個管用的詮釋。

為此,做了一個簡單的實驗。實驗步驟如下所述:

挑選一個網站關鍵詞,中英文相對(這處挑選的是布什和Bush);

作別在百度搜索布什,Google.com搜索布什和Bush;

均挑選第1頁的十項最後結果,計數各自的漢字字符數和英文單詞數(運用的是Word字數功能,很原始);

將各項搜索最後結果(題目+提要)移譯(中譯英,英譯中,運用的seo是google的移譯功能),再次計數;

作別計數全體和均勻數。

實驗數值見下圖:

主動指出實驗的幾點問題:

網站關鍵詞的挑選是否具備代表性呢?樣本為一,所以並無存在廣泛性。

移譯本身的問題。認為合適而使用移譯在這以後再計數相比較的形式是否合宜?

統計形式的問題。牽涉到到例如2007-6-18、IT這些個沒有辦法翻印的內部實質意義時,不會計入漢字字符,卻會計入非漢字單詞(約等與英文單詞)。這一定會萌生誤差。對此雖做出了一定的修正,但並不絕對。

專有表名稱的詞(如人名,地名等)移譯萌生的問題。California只需一個英文單詞,卻需求加利福尼亞五個漢字字符,專有表名稱的詞在搜索最後結果中所佔的比例體積也會影響最後結果。

總之,這個小實驗並不非常准確,也不科學,只是一個小小的左證。 想解釋明白的問題呢,在第二三段已經指出了。

再說一個有趣兒的小發覺。出於好奇,用Google的網頁移譯,移譯了它自個兒的搜索最後結果頁面(仍以布什為網站關鍵詞),漢字譯成英文。最後結果發覺,譯出的最後結果與原網頁的各項最後結果並不絕對對應,請看這個和 這個頁面。當打算將頁面書契復印至Word時,又發覺復印的內部實質意義是中英文混合的,即每一項均是原文(漢字)+英文(譯文)。