網站管理者仿佛好象對robots.txt並沒有引動多大看得起,應一點朋友之煩請,今日想經過這篇文章來簡單談
一下子robots.txt的寫文章。
robots.txt基本紹介
robots.txt是一個純文本文件,在這個文件中網站管理者可以聲明該網站中沒想到被robots過訪的局部,
還是指定搜索引擎網站只收錄指定的內部實質意義。
當一個搜索機器人(有的叫搜索蛛蛛)過訪一個站點時,它會頭先查緝該站點根目次下是否存在
robots.txt,假如存在,搜索機器人便會依照該文件中的內部實質意義來確認過訪的范圍;假如該文件不存在,
那末搜索機器人就沿著鏈接抓取。
額外,robots.txt務必安放在一個站點的根目次下,並且文件名務必所有小寫。
robots.txt寫文章語法
首先,我們來看一個robots.txt實例:/robots.txt
過訪以上具體地址,我們可以看見robots.txt的具體內部實質意義如下所述:
# Robots.txt file from
# All robots will spider the domain
User-agent: *
Disallow:
以上文本表現的意思是准許全部的搜索機器人過訪站點下的seo全部文件。
具體語法剖析:那裡面#後面書契為解釋明白信息;User-agent:後面為搜索機器人的名字,後面若是*,則泛
指全部的搜索機器人;Disallow:後面為不准許過訪的文件目次。
下邊,我將列舉一點robots.txt的具體用處:
准許全部的robot過訪
User-agent: *
Disallow:
還是也可以建一個具文件 /robots.txt file
嚴禁全部搜索引擎網站過訪網站的不論什麼局部
User-agent: *
Disallow: /
嚴禁全部搜索引擎網站過訪網站的幾個局部(下例中的01、02、03目次)
User-agent: *
Disallow: /01/
Disallow: /02/
Disallow: /03/
嚴禁某個搜索引擎網站的過訪(下例中的BadBot)
User-agent: BadBot
Disallow: /
只准許某個搜索引擎網站的過訪(下例中的Crawler)
User-agent: Crawler
Disallow:
User-agent: *
Disallow: /
額外,我感到有不可缺少施行拓展解釋明白,對robots meta施行一點紹介:
Robots META標簽則主要是針對一個個具體的頁面。和其它的META標簽(如運用的語言、頁面的描寫、關
鍵詞等)同樣,Robots META標簽也是放在頁面的<head></head>中,專門用來奉告搜索引擎網站ROBOTS
怎麼樣抓取該頁的內部實質意義。
Robots META標簽的寫法:
Robots META標簽中沒有體積寫之分,name=Robots表達全部的搜索引擎網站,可以針對某個具體搜引得
擎寫為name=BaiduSpider。 content局部有四個指令選項:index、noindex、follow、nofollow,
指令間以,中間隔斷。
INDEX 指令奉告搜索機器人抓取該頁面;
FOLLOW 指令表達搜索機器人可以沿著該頁面上的鏈接接著抓取下去;
Robots Meta標簽的缺省值是INDEX和FOLLOW,只有inktomi不計算在內,對於它,缺省值是INDEX,NOFOLLOW。
這麼,總共有四種組合:
<META NAME=ROBOTS CONTENT=INDEX,FOLLOW>
<META NAME=ROBOTS CONTENT=NOINDEX,FOLLOW>
<META NAME=ROBOTS CONTENT=INDEX,NOFOLLOW>
<META NAME=ROBOTS CONTENT=NOINDEX,NOFOLLOW>
那裡面
<META NAME=ROBOTS CONTENT=INDEX,FOLLOW>可以寫成<META NAME=ROBOTS CONTENT=
ALL>;
<META NAME=ROBOTS CONTENT=NOINDEX,NOFOLLOW>可以寫成<META NAME=ROBOTS
CONTENT=NONE>
到現在為止看來,絕大部分數的搜索引擎網站機器人都篤守robots.txt的規則,而對於Robots META標簽,到現在為止支持的
並不是很多
,不過正在漸漸增加,如聞名搜索引擎網站GOOGLE就絕對支持,並且GOOGLE還增加了一個指令
archive,可以限止GOOGLE是否保存網頁快照。例如:
<META NAME=googlebot CONTENT=index,follow,noarchive>