教你創建Google網站地圖Sitemap.xml

Sitemap.xml是google搞出來的,也就是網站地圖,不過這個網站地圖是用xml寫的,而且要按google的標準來寫,並且要將寫出來的這個文件sitemap.xml上傳到自己的服務器空間中去。目前,Google, Yahoo, MSN都已經聲明支持這種格式,Baidu還沒有聲明支持,但估計走這一步也是大勢所趨。這將是向眾多搜索引擎提供你網站信息的一種很好的方法。
  提交sitemap一是有利於搜索抓取一些正常抓取過程中無法抓取的網址,比如動態網頁,包含大量AJAX的網頁或者flash的頁面。二是為搜索蜘蛛指明工作方向。Sitemap就是你網站上頁面的列表,googlebot就按照這個去一個個的抓取收錄頁面,顯然比它自己去找會效率高,而且要全。Google網站上有完整的關於sitemap.xml的詳細說明:

/support/webmasters/bin/answer.py?answer=40318hl=zh_CN

但很多站長看後仍然不會操作,下面這個教程就是手把手教會你創建Sitemap.xml。

<!–[if !supportLists]–>1. <!–[endif]–>Sitemap.XML 的格式

完整格式如下:

<?xml version=1.0 encoding=UTF-8?>

<urlset xmlns=/schemas/sitemap/0.84 >

<url>

<loc>/default.asp</loc>

<lastmod>2008-07-17</lastmod>

<changefreq>daily</changefreq>

<priority>1.0</priority>

</url>

<url>

<loc> /search2.asp?id=32003044amp;sq=1</loc>

<lastmod>2008-07-17</lastmod>

<changefreq>weekly</changefreq>

<priority>0.9</priority>

</url>

</urlset>

下面,對以上標簽分別加以解釋

<!–[if !supportLists]–>a) <!–[endif]–><?xml version=1.0 encoding=UTF-8?>

<urlset xmlns=/schemas/sitemap/0.84 >

這兩行就相當於網頁文件中的<html>標簽一樣的作用。不必管這兩行什麼意思,照抄即可。

切記:一個字符也不能錯,即使多一個空格,google網站采集時也會報錯。另外,千萬別忘瞭在文件的末尾加上</urlset>標簽。

<!–[if !supportLists]–>
  b) url:每個標簽包含一個網頁地址,是以下標簽的父標簽。

c) /default.asp

這裡是頁面鏈接地址,也就是你希望蜘蛛訪問的地址。

切記:在地址中出現的某些特殊字符需要使用轉義字符,否則,google也會報錯。最典型的就是 號,經常在動態網址中出現,在提交地址中必須寫成 如:提交/search2.asp?id=32003044sq=1,google管理員工具就會報錯,而改為 /search2.asp?id=32003044sq=1提交後就沒有問題瞭。我看到網上有人說sitemap.xml隻能提交一個參數的網頁的說法,其實多半是因為沒有使用轉義字符而導致出錯的。其他的轉義字符就不一一列出瞭,大傢可以在網上查。

d) lastmod:頁面最後修改時間

這個很重要。Google的機器人會在索引此鏈接前先和上次索引記錄的最後更新時間進行 比較,如果時間一樣就會跳過不再索引。所以如果你的鏈接內容基於上次Google索引時的內容有所改變,應該更新該時間,讓Google下次索引時會重新 對該鏈接內容進行分析和提取關鍵字。這裡必須用ISO 8601中指定的時間格式進行描述,格式化的時間格式如下:

年:YYYY(2008)

年和月:YYYY-MM(2008-06)

年月日:YYYY-MM-DD(2008-06-04)

年月日小時分鐘:YYYY-MM-DDThh:mmTZD(2008-06-04T10:37+08:00)

年月日小時分鐘秒:YYYY-MM-DDThh:mmTZD(2008-06-04T10:37:30+08:00)

這裡需註意的是TZD,TZD指定就是本地時間區域標記,像中國就是+08:00瞭

切記:其他格式可能引起出錯,比如將2008-08-08 寫成2008-8-8就會出問題。

e) changefreq:頁面內容更新頻率。

這裡可以用來描述的單詞共這幾個:always, hourly, daily, weekly, monthly, yearly,具體含義我就不用解釋瞭吧,光看單詞的意思就明白瞭。

f) priority:相對於其他頁面的優先權

定於0.0 – 1.0之間 。

切記:建議將各類網頁根據重要性給出不同的數值,以方便蜘蛛的采集,不要耍小聰明全部寫1.0,google管理工具會報錯的。

2. Sitemap.xml制作方式

制作方式無非兩種,自動方式和手動方式。

自動方式一般使用生成工具自動生成,隻需輸入自己的網址,就可以得到完整的xml文件。這種方式一般適用於靜態網站,在此不再贅述。但需要提醒的是,網上的工具良莠不齊,生成的文件經常有錯誤,不一定能通過google的校驗,使用者需認真辨別。

手工方式則是由站長手工填寫或寫程序完成均可,代碼很簡單,大傢可以到網上查找。

3. 提交

Sitemap.xml制作完成後,就需要將xml文件提交到相關搜索引擎。

Google提交網址:/webmasters/sitemaps/?hl=zh-CN

Yahoo提交網址:/

提交後,一般在幾個小時之內,系統就開始下載處理瞭。

4. Sitemap.xml的校驗

至於你的網站地圖是否符合標準,最方便的手段就是使用google的管理員工具瞭。

在他下載你的sitemap.xml後幾天內,這個工具就會將詳細的分析結果反饋回來,包括:sitemap.xml中包含瞭多少地址,google已將多少地址加入索引,sitemap.xml中出現瞭哪些錯誤,甚至蜘蛛采集過程中遇到的各種問題,比如哪些網頁有404,500錯誤都會詳細的羅列出來,非常方便。

如果你提交的xml文件一切無誤,那麼接下來,你就是等著讓它的搜索蜘蛛來爬瞭,sitemap的文件告知瞭文件更新的頻率,這樣搜索蜘蛛來得更勤快,頁面被收錄當然也就更快。

5分半鐘:Google網站地圖 Sitemap.xml