怎麼樣寫robots.txt？ | 香港SEO專家

在國內，網站管理者仿佛好象對robots.txt並沒有引動多大看得起，應一點朋友之煩請，今日想經過這篇文章來簡單談一下子robots.txt的寫文章。

robots.txt基本紹介

robots.txt是一個純文本文件，在這個文件中網站管理者可以聲明該網站中沒想到被robots過訪的局部，還是指定搜索引擎網站只收錄指定的內部實質意義。

當一個搜索機器人（有的叫搜索蛛蛛）過訪一個站點時，它會頭先查緝該站點根目次下是否存在robots.txt，假如存在，搜索機器人便會依照該文件中的內部實質意義來確認過訪的范圍；假如該文件不存在，那末搜索機器人就沿著鏈接抓取。

額外，robots.txt務必安放在一個站點的根目次下，並且文件名務必所有小寫。

robots.txt寫文章語法

首先，我們來看一個robots.txt實例：http://www.csswebs.org/robots.txt

過訪以上具體地址，我們可以看見robots.txt的具體內部實質意義如下所述：

# Robots.txt file from http://www.csswebs.org
# All robots will spider the domain

User-agent: *
Disallow:

以上文本表現的意思是准許全部的搜索機器人過訪www.csswebs.org站點下的全部文件。

具體語法剖析：那裡面#後面書契為解釋明白信息；User-agent:後面為搜索機器人的名字，後面若是*，則泛指全部的搜索機器人；Disallow:後面為不准許過訪的文件目次。

下邊，我將列舉一點robots.txt的具體用處：

准許全部的robot過訪

User-agent: *
Disallow:

還是也可以建一個具文件『/robots.txt』 file

嚴禁全部搜索引擎網站過訪網站的不論什麼局部

User-agent: *
Disallow: /

嚴禁全部搜索引擎網站過訪網站的幾個局部（下例中的01、02、03目次）

User-agent: *
Disallow: /01/
Disallow: /02/
Disallow: /03/

嚴禁某個搜索引擎網站的過訪（下例中的BadBot）

User-agent: BadBot
Disallow: /

只准許某個搜索引擎網站的過訪（下例中的Crawler）

User-agent: Crawler
Disallow:

User-agent: *
Disallow: /

額外，我感到有不可缺少施行拓展解釋明白，對robots meta施行一點紹介：

Robots META標簽則主要是針對一個個具體的頁面。和其它的META標簽（如運用的語言、頁面的描寫、網站關鍵詞等）同樣，Robots META標簽也是放在頁面的＜head＞＜/head＞中，專門用來奉告搜索引擎網站ROBOTS怎麼樣抓取該頁的內部實質意義。

Robots META標簽的寫法：

Robots META標簽中沒有體積寫之分，name=』Robots』表達全部的搜索引擎網站，可以針對某個具體搜索引擎網站寫為name=』BaiduSpider』。 content局部有四個指令選項：index、noindex、follow、nofollow，指令間以『,』中間隔斷。

INDEX 指令奉告搜索機器人抓取該頁面；

FOLLOW 指令表達搜索機器人可以沿著該頁面上的鏈接接著抓取下去；

Robots Meta標簽的缺省值是INDEX和FOLLOW，只有inktomi不計算在內，對於它，缺省值是INDEX,NOFOLLOW。

這麼，總共有四種組合：

＜META NAME=』ROBOTS』 CONTENT=』INDEX,FOLLOW』＞
＜META NAME=』ROBOTS』 CONTENT=』NOINDEX,FOLLOW』＞
＜META NAME=』ROBOTS』 CONTENT=』INDEX,NOFOLLOW』＞
＜META NAME=』ROBOTS』 CONTENT=』NOINDEX,NOFOLLOW』＞

那裡面

＜META NAME=』ROBOTS』 CONTENT=』INDEX,FOLLOW』＞可以寫成＜META NAME=』ROBOTS』 CONTENT=』ALL』＞；

＜META NAME=』ROBOTS』 CONTENT=』NOINDEX,NOFOLLOW』＞可以寫成＜META NAME=』ROBOTS』 CONTENT=』NONE』＞

到現在為止看來，絕大部分數的搜索引擎網站機器人都篤守robots.txt的規則，而對於Robots META標簽，到現在為止支持的並不是很多
，不過正在漸漸增加，如聞名搜索引擎網站GOOGLE就絕對支持，並且GOOGLE還增加了一個指令『archive』，可以限止GOOGLE是否保存網頁快照。例如：

＜META NAME=』googlebot』 CONTENT=』index,follow,noarchive』＞

表達抓取該站點中頁面並沿著頁面中鏈接抓取，不過不在GOOLGE上保存該頁面的網頁快照。

The Blog

SEO諮詢: (852) 27208908