robots協議對網站、搜索引擎的重要性

　　很多站長最頭疼的一個問題就是，搜索引擎蜘蛛為什麼不光顧自己的網站，或者光顧頻率比較低。這樣對網站收錄的影響是比較大的，直接影響到網站的排名。

　　先談一下搜索引擎蜘蛛的工作原理吧，蜘蛛又稱網絡爬蟲、網頁蜘蛛、網絡機器人，更生動的叫網頁追逐者。一種按照一定的規則，自動地抓取萬維網信息的程序或者腳本。另外一些不常使用的名字還有螞蟻、自動索引、模擬程序或者蠕蟲。　　

　　網絡爬蟲

　　你知道萬維網中有多少蜘蛛嗎?下面介紹一下全球知名的蜘蛛,NO1:谷歌蜘蛛：google 谷歌蜘蛛最新名稱為compatible; Googlebot/2.1; Googlebot-Mobile，看名字是抓取wap內容的:，全球最大的搜索引擎公司。NO2：百度蜘蛛：Baiduspider 常見百度旗下同類型蜘蛛還有下面這些Baiduspider-mobile(wap引擎)、Baiduspider-image(搜圖引擎 )、Baiduspider-video(視頻引擎)Baiduspider-news(新聞引擎),中文搜索引擎最強的公司。NO3：360蜘蛛：360Spider。NO4:SOSO蜘蛛,NO4:Sosospider 雅虎蜘蛛,NO:5Yahoo! Slurp China或者Yahoo!NO6: 有道蜘蛛：YoudaoBot，YodaoBot,NO7: 搜狗蜘蛛：Sogou News Spider，這些是全球最出名的蜘蛛，其實還有好多我就不一一列舉瞭。

　　蜘蛛特點就是通過結網來捕獲獵物，所以我們的網站就跟獵物一樣等蜘蛛來捕獲，如果網站內容新穎獨特，更新內容頻率高蜘蛛就會經常光顧你的網站。但是也不能讓蜘蛛隨便抓取，比如後臺地址，所以就有瞭robots這個協議，這個很重要如果robots.txt協議寫的好可以事半功倍。下面介紹一下robots.txt協議怎麼寫可以迎合蜘蛛的口味：

　　User-agent: *

　　開頭字母必須是大寫的，後面加英文形式下的冒號，然後後面是空格。

　　*表示通配符號。這裡指通配所有的搜索引擎。

　　Disallow: / 表示禁止搜索引擎爬取所有頁面，/表示目錄。

　　Disallow: 表示不禁止

　　Disallow: /admin/禁止爬取admin後臺目錄。

　　Disallow: /admin 禁止抓取包含admin的路徑後面不帶/表示隻要路徑中包含admin蜘蛛就不會抓取。

　　Allow: 表示允許

　　Allow: /admin/s3.html 允許抓取admin目錄下的s3.html 這個文件。

　　Disallow: /.css$ 表示以.css結尾的文件都不允許抓取，帶上$表示特定的文件。

　　3.robots.txt協議寫法註意點

　　註意：

　　所有的語法必須空格/開頭，所有正規的搜索引擎在抓取網站URL的時候會第一時間抓取robots.txt,如果沒有robots.txt文件，蜘蛛會默認網站允許抓取所有信息。

　　網站地圖放在robots.txt文件裡。

　　所以把網站地圖放在robots.txt文件夾裡可以讓蜘蛛更快速的抓取網站路徑。把做好的XML地圖寫在robots.txt文件裡上傳根目錄就好。

　　總結：robots協議對偽靜態的網站很重要，如果沒有robots協議搜索引擎就會重復收錄對網站權重排名有影響。robots協議最後必須加入網站地圖，這樣才會更好的引導蜘蛛抓取你的網站。

　　本文由鹽城SEO吉中春原創，，轉摘請保留版權，謝謝。

The Blog

SEO諮詢: (852) 27208908