Google、雅虎、微軟三巨頭的Robots文件標准

Google、雅虎、微軟三巨頭的Robots文件標准

搜索引擎網站三巨頭打車不亦樂乎,但間或也合作一下子。今年前一年Google,雅虎,微軟就合作,並肩篤守一統的Sitemaps標准。前兩天三巨頭又同時宣告,並肩篤守的robots.txt文件標准。Google,雅虎,微軟各自在自個兒的官方博客上發了一篇帖子,揭曉三家都支持的robots.txt文件及Meta標簽的標准,以及一點各自特有的標准。下邊做一個總結概括。

三家都支持的robots文件記錄涵蓋:

Disallow – 奉告蛛蛛不要抓取某些文件或目次。如下所述面代碼將阻擋蛛蛛抓取全部的網站文件:

User-agent: *

Disallow: /

Allow – 奉告蛛蛛應當抓取某些文件。Allow和Disallow合適運用,可以奉告蛛蛛某個目次下,大多都不抓取,只抓取一小批。如下所述面代碼將使蛛蛛不抓取ab目次下其它文件,而只抓取那裡面cd下的文件:

User-agent: *

Disallow: /ab/

Allow: /ab

$通配符 – 般配URL結末的字符。如下所述面代碼將准許蛛蛛過訪以.htm為後綴的URL:

User-agent: *

Allow: .htm$

*通配符 – 奉告蛛蛛般配恣意一段字符。如下所述面一段代碼將嚴禁蛛蛛抓取全部htm文件:

User-agent: *

Disallow: /*.htm

Sitemaps位置 – 奉告蛛蛛你的網站地圖何在,款式為:Sitemap: <sitemap_location>

三家都支持的Meta標簽涵蓋:

NOINDEX – 奉告蛛蛛不要引得某個網頁。

NOFOLLOW – 奉告蛛蛛不要跟蹤網頁上的鏈接。

NOSNIPPET – 奉告蛛蛛不要在搜索最後結果中顯露說明事物的文章字。

NOARCHIVE – 奉告蛛蛛不要顯露快照。

NOODP – 奉告蛛蛛不要運用開放目次中的題目和解釋明白。

上頭這些個記錄或標簽,如今三家都並肩支持。那裡面通配符好似曾經雅虎微軟並不支持。百度如今也支持Disallow,Allow及兩種通配符。Meta標簽我沒有找到百度是否支持的官方解釋明白。

只有Google支持的Meta標簽有:

UNAVAILABLE_AFTER – 奉告蛛網頁啥子時刻超過期限。在這個日子在這以後,不應當再顯露出來在搜索最後結果中。

NOIMAGEINDEX – 奉告蛛蛛不要引得頁面上的圖片。

NOTRANSLATE – 奉告蛛蛛不要移譯頁面內部實質意義。

雅虎還支持Meta標簽:

Crawl-Delay – 准許蛛蛛延時抓取的頻率。

NOYDIR – 和NOODP標簽相仿,不過指雅虎目次,而不是開放目次。

Robots-nocontent – 奉告蛛蛛被示明的局部html不是網頁內部實質意義的一小批,還是換個角度,奉告蛛蛛哪一些局部是頁面的主要內部實質意義(想被檢索的內部實質意義)。

MSN還支持Meta標簽:Crawl-Delay

額外提示大家注意的是,robots.txt文件可以不存在,回返404不正確,意味著准許蛛蛛抓取全部內部實質意義。但抓取robots.txt文件時卻發生超時什麼的的不正確,有可能造成搜索引擎網站不收錄網站,由於蛛蛛不曉得robots.txt文件是否存在還是裡邊有啥子內部實質意義,這與明確承認文件不存在是不同的。