怎麼樣寫robots.txt?

在國內,網站管理者仿佛好象對robots.txt並沒有引動多大看得起,應一點朋友之煩請,今日想經過這篇文章來簡單談一下子robots.txt的寫文章。



robots.txt基本紹介


robots.txt是一個純文本文件,在這個文件中網站管理者可以聲明該網站中沒想到被robots過訪的局部,還是指定搜索引擎網站只收錄指定的內部實質意義。


當一個搜索機器人(有的叫搜索蛛蛛)過訪一個站點時,它會頭先查緝該站點根目次下是否存在robots.txt,假如存在,搜索機器人便會依照該文件中的內部實質意義來確認過訪的范圍;假如該文件不存在,那末搜索機器人就沿著鏈接抓取。


額外,robots.txt務必安放在一個站點的根目次下,並且文件名務必所有小寫。


robots.txt寫文章語法


首先,我們來看一個robots.txt實例:http://www.csswebs.org/robots.txt


過訪以上具體地址,我們可以看見robots.txt的具體內部實質意義如下所述:


# Robots.txt file from http://www.csswebs.org
# All robots will spider the domain


User-agent: *
Disallow:


以上文本表現的意思是准許全部的搜索機器人過訪www.csswebs.org站點下的全部文件。


具體語法剖析:那裡面#後面書契為解釋明白信息;User-agent:後面為搜索機器人的名字,後面若是*,則泛指全部的搜索機器人;Disallow:後面為不准許過訪的文件目次。


下邊,我將列舉一點robots.txt的具體用處:


准許全部的robot過訪


User-agent: *
Disallow:


還是也可以建一個具文件 『/robots.txt』 file


嚴禁全部搜索引擎網站過訪網站的不論什麼局部


User-agent: *
Disallow: /


嚴禁全部搜索引擎網站過訪網站的幾個局部(下例中的01、02、03目次)


User-agent: *
Disallow: /01/
Disallow: /02/
Disallow: /03/


嚴禁某個搜索引擎網站的過訪(下例中的BadBot)


User-agent: BadBot
Disallow: /


只准許某個搜索引擎網站的過訪(下例中的Crawler)


User-agent: Crawler
Disallow:


User-agent: *
Disallow: /


額外,我感到有不可缺少施行拓展解釋明白,對robots meta施行一點紹介:


Robots META標簽則主要是針對一個個具體的頁面。和其它的META標簽(如運用的語言、頁面的描寫、網站關鍵詞等)同樣,Robots META標簽也是放在頁面的<head></head>中,專門用來奉告搜索引擎網站ROBOTS怎麼樣抓取該頁的內部實質意義。


Robots META標簽的寫法:


Robots META標簽中沒有體積寫之分,name=』Robots』表達全部的搜索引擎網站,可以針對某個具體搜索引擎網站寫為name=』BaiduSpider』。 content局部有四個指令選項:index、noindex、follow、nofollow,指令間以『,』中間隔斷。


INDEX 指令奉告搜索機器人抓取該頁面;


FOLLOW 指令表達搜索機器人可以沿著該頁面上的鏈接接著抓取下去;


Robots Meta標簽的缺省值是INDEX和FOLLOW,只有inktomi不計算在內,對於它,缺省值是INDEX,NOFOLLOW。


這麼,總共有四種組合:


<META NAME=』ROBOTS』 CONTENT=』INDEX,FOLLOW』>
<META NAME=』ROBOTS』 CONTENT=』NOINDEX,FOLLOW』>
<META NAME=』ROBOTS』 CONTENT=』INDEX,NOFOLLOW』>
<META NAME=』ROBOTS』 CONTENT=』NOINDEX,NOFOLLOW』>


那裡面


<META NAME=』ROBOTS』 CONTENT=』INDEX,FOLLOW』>可以寫成<META NAME=』ROBOTS』 CONTENT=』ALL』>;


<META NAME=』ROBOTS』 CONTENT=』NOINDEX,NOFOLLOW』>可以寫成<META NAME=』ROBOTS』 CONTENT=』NONE』>


到現在為止看來,絕大部分數的搜索引擎網站機器人都篤守robots.txt的規則,而對於Robots META標簽,到現在為止支持的並不是很多
,不過正在漸漸增加,如聞名搜索引擎網站GOOGLE就絕對支持,並且GOOGLE還增加了一個指令『archive』,可以限止GOOGLE是否保存網頁快照。例如:


<META NAME=』googlebot』 CONTENT=』index,follow,noarchive』>


表達抓取該站點中頁面並沿著頁面中鏈接抓取,不過不在GOOLGE上保存該頁面的網頁快照。