charset中gbk或utf8對seo的影響

charset中gbk或utf8對seo的影響

看見有人問gbk和utf-8對於seo的影響,我說點私人看法。

假如網站是面向國人的,提議運用gbk,理由如下所述:

1.gbk認為合適而使用雙字節表達中文,utf-8認為合適而使用三個字節表達中文,從表達一個中文所佔的字節數來說,gbk相對於utf-8可以節省50百分之百的空間。

2.到現在為止開源的手續gbk編碼相對成熟一點。

3.蛛蛛在爬動某個頁面的過程中辨別的charset屬性值假如為gbk的話基本上可以的確為漢字類型的網站(無須對後面的內部實質意義施行判斷),假如為utf-8的話還需求進一步判斷(例如檢索全文中的字符有若乾歸屬utf-8漢字字符的范圍)。

假如網站是外文的話不猶豫utf-8吧。

還有一點兒需求注意的是因為gbk和utf-8的編碼不一樣,假如網站在被收錄在這以後更改charset的話,蛛蛛在抓取過程中假如不可以趁早的發覺charset變化的話便會分辨斷定網頁內部實質意義發生異常造成頁面被K。

以我自個兒的論壇為例(以下例子與實際事情狀況還有些出入,僅用來解釋明白約略意思),如圖1所示,論壇認為合適而使用的編碼為gbk,瀏覽器正常顯露。

圖1:

 

假如強迫瀏覽器以utf-8編碼詮釋的話便會是圖2的模樣。

圖2:

 

一樣的道理,假如之前認為合適而使用的是utf-8編碼,並且頁面已經被搜索引擎網站收錄,假如半路換成gbk編碼的話,在蛛蛛爬動過程中假如蛛蛛不可以趁早發覺charset屬性值變更的話還會依照之前的編碼施行解析,最後結果就是與之前正常的頁表情形萌生了非常大的變化,繼續往前造成頁面被K的有可能。

理論需求去實踐,我用自個兒的一個頁面施行了這個實驗(頁面地址