網站站長務必看得起的robots.txt

網站管理者仿佛好象對robots.txt並沒有引動多大看得起,應一點朋友之煩請,今日想經過這篇文章來簡單談

一下子robots.txt的寫文章。

robots.txt基本紹介

robots.txt是一個純文本文件,在這個文件中網站管理者可以聲明該網站中沒想到被robots過訪的局部,

還是指定搜索引擎網站只收錄指定的內部實質意義。

當一個搜索機器人(有的叫搜索蛛蛛)過訪一個站點時,它會頭先查緝該站點根目次下是否存在

robots.txt,假如存在,搜索機器人便會依照該文件中的內部實質意義來確認過訪的范圍;假如該文件不存在,

那末搜索機器人就沿著鏈接抓取。

額外,robots.txt務必安放在一個站點的根目次下,並且文件名務必所有小寫。

robots.txt寫文章語法

首先,我們來看一個robots.txt實例:/robots.txt

過訪以上具體地址,我們可以看見robots.txt的具體內部實質意義如下所述:

# Robots.txt file from
# All robots will spider the domain

User-agent: *
Disallow:

以上文本表現的意思是准許全部的搜索機器人過訪站點下的seo全部文件。

具體語法剖析:那裡面#後面書契為解釋明白信息;User-agent:後面為搜索機器人的名字,後面若是*,則泛

指全部的搜索機器人;Disallow:後面為不准許過訪的文件目次。

下邊,我將列舉一點robots.txt的具體用處:

准許全部的robot過訪

User-agent: *
Disallow:

還是也可以建一個具文件 /robots.txt file

嚴禁全部搜索引擎網站過訪網站的不論什麼局部

User-agent: *
Disallow: /

嚴禁全部搜索引擎網站過訪網站的幾個局部(下例中的01、02、03目次)

User-agent: *
Disallow: /01/
Disallow: /02/
Disallow: /03/

嚴禁某個搜索引擎網站的過訪(下例中的BadBot)

User-agent: BadBot
Disallow: /

只准許某個搜索引擎網站的過訪(下例中的Crawler)

User-agent: Crawler
Disallow:

User-agent: *
Disallow: /

額外,我感到有不可缺少施行拓展解釋明白,對robots meta施行一點紹介:

Robots META標簽則主要是針對一個個具體的頁面。和其它的META標簽(如運用的語言、頁面的描寫、關

鍵詞等)同樣,Robots META標簽也是放在頁面的<head></head>中,專門用來奉告搜索引擎網站ROBOTS

怎麼樣抓取該頁的內部實質意義。

Robots META標簽的寫法:

Robots META標簽中沒有體積寫之分,name=Robots表達全部的搜索引擎網站,可以針對某個具體搜引得

擎寫為name=BaiduSpider。 content局部有四個指令選項:index、noindex、follow、nofollow,

指令間以,中間隔斷。

INDEX 指令奉告搜索機器人抓取該頁面;

FOLLOW 指令表達搜索機器人可以沿著該頁面上的鏈接接著抓取下去;

Robots Meta標簽的缺省值是INDEX和FOLLOW,只有inktomi不計算在內,對於它,缺省值是INDEX,NOFOLLOW。

這麼,總共有四種組合:

<META NAME=ROBOTS CONTENT=INDEX,FOLLOW>
<META NAME=ROBOTS CONTENT=NOINDEX,FOLLOW>
<META NAME=ROBOTS CONTENT=INDEX,NOFOLLOW>
<META NAME=ROBOTS CONTENT=NOINDEX,NOFOLLOW>

那裡面

<META NAME=ROBOTS CONTENT=INDEX,FOLLOW>可以寫成<META NAME=ROBOTS CONTENT=

ALL>;

<META NAME=ROBOTS CONTENT=NOINDEX,NOFOLLOW>可以寫成<META NAME=ROBOTS

CONTENT=NONE>

到現在為止看來,絕大部分數的搜索引擎網站機器人都篤守robots.txt的規則,而對於Robots META標簽,到現在為止支持的

並不是很多
,不過正在漸漸增加,如聞名搜索引擎網站GOOGLE就絕對支持,並且GOOGLE還增加了一個指令

archive,可以限止GOOGLE是否保存網頁快照。例如:

<META NAME=googlebot CONTENT=index,follow,noarchive>