Google、雅虎、微軟三巨頭的Robots文件標准
搜索引擎網站三巨頭打車不亦樂乎,但間或也合作一下子。今年前一年Google,雅虎,微軟就合作,並肩篤守一統的Sitemaps標准。前兩天三巨頭又同時宣告,並肩篤守的robots.txt文件標准。Google,雅虎,微軟各自在自個兒的官方博客上發了一篇帖子,揭曉三家都支持的robots.txt文件及Meta標簽的標准,以及一點各自特有的標准。下邊做一個總結概括。
三家都支持的robots文件記錄涵蓋:
Disallow – 奉告蛛蛛不要抓取某些文件或目次。如下所述面代碼將阻擋蛛蛛抓取全部的網站文件:
User-agent: *
Disallow: /
Allow – 奉告蛛蛛應當抓取某些文件。Allow和Disallow合適運用,可以奉告蛛蛛某個目次下,大多都不抓取,只抓取一小批。如下所述面代碼將使蛛蛛不抓取ab目次下其它文件,而只抓取那裡面cd下的文件:
User-agent: *
Disallow: /ab/
Allow: /ab
$通配符 – 般配URL結末的字符。如下所述面代碼將准許蛛蛛過訪以.htm為後綴的URL:
User-agent: *
Allow: .htm$
*通配符 – 奉告蛛蛛般配恣意一段字符。如下所述面一段代碼將嚴禁蛛蛛抓取全部htm文件:
User-agent: *
Disallow: /*.htm
Sitemaps位置 – 奉告蛛蛛你的網站地圖何在,款式為:Sitemap: <sitemap_location>
三家都支持的Meta標簽涵蓋:
NOINDEX – 奉告蛛蛛不要引得某個網頁。
NOFOLLOW – 奉告蛛蛛不要跟蹤網頁上的鏈接。
NOSNIPPET – 奉告蛛蛛不要在搜索最後結果中顯露說明事物的文章字。
NOARCHIVE – 奉告蛛蛛不要顯露快照。
NOODP – 奉告蛛蛛不要運用開放目次中的題目和解釋明白。
上頭這些個記錄或標簽,如今三家都並肩支持。那裡面通配符好似曾經雅虎微軟並不支持。百度如今也支持Disallow,Allow及兩種通配符。Meta標簽我沒有找到百度是否支持的官方解釋明白。
只有Google支持的Meta標簽有:
UNAVAILABLE_AFTER – 奉告蛛網頁啥子時刻超過期限。在這個日子在這以後,不應當再顯露出來在搜索最後結果中。
NOIMAGEINDEX – 奉告蛛蛛不要引得頁面上的圖片。
NOTRANSLATE – 奉告蛛蛛不要移譯頁面內部實質意義。
雅虎還支持Meta標簽:
Crawl-Delay – 准許蛛蛛延時抓取的頻率。
NOYDIR – 和NOODP標簽相仿,不過指雅虎目次,而不是開放目次。
Robots-nocontent – 奉告蛛蛛被示明的局部html不是網頁內部實質意義的一小批,還是換個角度,奉告蛛蛛哪一些局部是頁面的主要內部實質意義(想被檢索的內部實質意義)。
MSN還支持Meta標簽:Crawl-Delay
額外提示大家注意的是,robots.txt文件可以不存在,回返404不正確,意味著准許蛛蛛抓取全部內部實質意義。但抓取robots.txt文件時卻發生超時什麼的的不正確,有可能造成搜索引擎網站不收錄網站,由於蛛蛛不曉得robots.txt文件是否存在還是裡邊有啥子內部實質意義,這與明確承認文件不存在是不同的。