Google、雅虎、微軟三巨頭的Robots文件標准

搜索引擎網站三巨頭打車不亦樂乎，但間或也合作一下子。今年前一年Google，雅虎，微軟就合作，並肩篤守一統的Sitemaps標准。前兩天三巨頭又同時宣告，並肩篤守的robots.txt文件標准。Google，雅虎，微軟各自在自個兒的官方博客上發了一篇帖子，揭曉三家都支持的robots.txt文件及Meta標簽的標准，以及一點各自特有的標准。下邊做一個總結概括。

三家都支持的robots文件記錄涵蓋：

Disallow – 奉告蛛蛛不要抓取某些文件或目次。如下所述面代碼將阻擋蛛蛛抓取全部的網站文件：

User-agent: *

Disallow: /

Allow – 奉告蛛蛛應當抓取某些文件。Allow和Disallow合適運用，可以奉告蛛蛛某個目次下，大多都不抓取，只抓取一小批。如下所述面代碼將使蛛蛛不抓取ab目次下其它文件，而只抓取那裡面cd下的文件：

User-agent: *

Disallow: /ab/

Allow: /ab

$通配符 – 般配URL結末的字符。如下所述面代碼將准許蛛蛛過訪以.htm為後綴的URL：

User-agent: *

Allow: .htm$

*通配符 – 奉告蛛蛛般配恣意一段字符。如下所述面一段代碼將嚴禁蛛蛛抓取全部htm文件：

User-agent: *

Disallow: /*.htm

Sitemaps位置 – 奉告蛛蛛你的網站地圖何在，款式為：Sitemap: <sitemap_location>

三家都支持的Meta標簽涵蓋：

NOINDEX – 奉告蛛蛛不要引得某個網頁。

NOFOLLOW – 奉告蛛蛛不要跟蹤網頁上的鏈接。

NOSNIPPET – 奉告蛛蛛不要在搜索最後結果中顯露說明事物的文章字。

NOARCHIVE – 奉告蛛蛛不要顯露快照。

NOODP – 奉告蛛蛛不要運用開放目次中的題目和解釋明白。

上頭這些個記錄或標簽，如今三家都並肩支持。那裡面通配符好似曾經雅虎微軟並不支持。百度如今也支持Disallow，Allow及兩種通配符。Meta標簽我沒有找到百度是否支持的官方解釋明白。

只有Google支持的Meta標簽有：

UNAVAILABLE_AFTER – 奉告蛛網頁啥子時刻超過期限。在這個日子在這以後，不應當再顯露出來在搜索最後結果中。

NOIMAGEINDEX – 奉告蛛蛛不要引得頁面上的圖片。

NOTRANSLATE – 奉告蛛蛛不要移譯頁面內部實質意義。

雅虎還支持Meta標簽：

Crawl-Delay – 准許蛛蛛延時抓取的頻率。

NOYDIR – 和NOODP標簽相仿，不過指雅虎目次，而不是開放目次。

Robots-nocontent – 奉告蛛蛛被示明的局部html不是網頁內部實質意義的一小批，還是換個角度，奉告蛛蛛哪一些局部是頁面的主要內部實質意義(想被檢索的內部實質意義)。

MSN還支持Meta標簽：Crawl-Delay

額外提示大家注意的是，robots.txt文件可以不存在，回返404不正確，意味著准許蛛蛛抓取全部內部實質意義。但抓取robots.txt文件時卻發生超時什麼的的不正確，有可能造成搜索引擎網站不收錄網站，由於蛛蛛不曉得robots.txt文件是否存在還是裡邊有啥子內部實質意義，這與明確承認文件不存在是不同的。

The Blog

SEO諮詢: (852) 27208908