搜索引擎網站Robots協議,是安放在網站根目次下robots.txt文本文件,在文件中可以設定搜索引擎網站蛛蛛爬動規則。設置搜索引擎網站蛛蛛Spider抓取內部實質意義規則。下邊Seoer惜緣舉例robots寫法令規則則與涵義:
首先要開創一個robots.txt文本文件,安放網站的根目次下,下邊就著手編輯設置Robots協議文件:
一、准許全部搜索引擎網站蛛蛛抓取所以目次文件,假如文件無內部實質意義,也表達准許全部的蛛蛛過訪,設置代碼如下所述:
User-agent: *
Disallow:
還是
User-agent: *
Allow: /
二、嚴禁某個搜索引擎網站蛛蛛抓取目次文件,設置代碼如下所述:
User-agent: Msnbot
Disallow: /
User-agent: Msnbot
Disallow: /
例如想嚴禁MSN的蛛蛛抓取就設為,Msnbot代表MSN的蛛蛛,假如想嚴禁其它搜索引擎網站就改易蛛蛛姓名即可,其它蛛蛛姓名如下所述:
百度的蛛蛛:baiduspider
Google的蛛蛛: Googlebot
騰訊Soso:Sosospider
Yahoo的蛛蛛:Yahoo Slurp
Msn的蛛蛛seo:Msnbot
Altavista的蛛蛛:Scooter
Lycos的蛛蛛: Lycos_Spider_(T-Rex)
三、嚴禁某個目次被搜索引擎網站蛛蛛抓取,設置代碼如下所述:
User-agent: *
Disallow: /目次姓名1/
Disallow: /目次姓名2/
Disallow: /目次姓名3/
把目次姓名改為你想要嚴禁的目次即可嚴禁搜索引擎網站蛛蛛抓取,目次姓名未寫表達可以被搜索引擎網站抓取。
四、嚴禁某個目次被某個搜索引擎網站蛛蛛抓取,設置代碼如下所述:
User-agent: 搜索引擎網站蛛蛛姓名 解釋明白(上頭有解釋明白蛛蛛的姓名)Disallow: /目次姓名/ 解釋明白(這處設定嚴禁蛛蛛抓取的目次名字)例如,想禁目Msn蛛蛛抓取admin文件夾,可以設代碼如下所述:
User-agent: Msnbot
Disallow: /admin/
五、設定某品類型文件嚴禁被某個搜索引擎網站蛛蛛抓取,設置代碼如下所述:
User-agent: *
Disallow: /*.htm 解釋明白(那裡面.htm,表達嚴禁搜索引擎網站蛛蛛抓取全部htm為後綴的文件)
六、充許全部搜索引擎網站蛛蛛過訪以某個擴展名為後綴的網頁地址被抓取,設置代碼如下所述:
User-agent: *
Allow: .htm$ 解釋明白(那裡面.htm,表達充許搜索引擎網站蛛蛛抓取全部htm為後綴的文件)
七、只充許某個搜索引擎網站蛛蛛抓取目次文件,設置代碼如下所述:
User-agent: 搜索引擎網站蛛蛛姓名 解釋明白(上頭有解釋明白蛛蛛的姓名)
Disallow:
筆者: Seoer惜緣 原載網址: /top