Google對站點地圖Sitemap的一些限制因素

首先插一下話題,此前放瞭大量有關黃色小說、動漫等相關信息,並非我的blog變成黃窩瞭,完全是對Google搜索引擎的一種SEO實驗,結果還可以,黃色動漫、黃色小說等關鍵字,一度在Google排在第一頁,訪問量自然也是大大增加

不過還是要言歸正傳,我的blog基本還是討論技術和運營等,畢竟不是黃色網站

回歸話題:最近在考慮一個問題,一般站長其實很好碰到,那就是當一個海量的網站,有百萬以上網頁時,如何建立Sitemap?

其實大部分網站,能有上萬的網頁,都說明信息量很不小瞭,所以也就很少有人關註10萬、百萬以上網址的,不過海量網站,絕對會遇到這樣的問題,今天整理瞭一下,發現瞭Google的Sitemap的一些限制因素:

Google對XML格式的Sitemap在數量上、編碼等方面是有一些限制,具體如下:

Sitemap中的網址必須是絕對網址,包括參數等,如:/1.html;

s=sitemap,千萬不能使用類似於/index.php?s=sitemap這樣的相對網址。

每個Sitemap文件最多可以包含 50,000 個網址,且大小不得超過10MB。 如果網址超過 50,000 個,則應創建多個Sitemap文件,然後可以采用Sitemap的索引文件把這些文件包含起來。

Sitemap索引文件最多可以列出 1,000 個 Sitemap;

Sitemap中的網址應該使用相同的域名,且是本站的域名,不得出現兩個或以上的域名,也不能出現外站的域名:如的Sitemap中的網址隻能是:/index.php,或:/index.php(兩者選擇其一,不能混用),不能是/;

Sitmap文件需使用 UTF-8 編碼。

不要在 Sitemap 中包含直接圖片網址。 Google 不會將圖片直接編入索引中,Sitemap 中包含的直接圖片網址不會編入索引。

這裡是:官方詳細的Google Sitemap使用幫助

其實這樣看來,Google從理論上隻支持一個網站有5千萬個網頁,這聽上去其實很大瞭,一般網站有5000個網址都算很龐大瞭,別說五千萬,不過對於我們下來的實驗項目,目標是上億的,比如QQ的問問系統,現在都有上億的個問答,顯然要是通過Sitemap,估計完成不瞭這個任務瞭。