robots能否徹底屏蔽搜索蛛蛛爬動與抓取呢?

robots能否徹底屏蔽搜索蛛蛛爬動與抓取呢?

說到屏蔽搜索蛛蛛的抓取,自不過然的便會想到robots.txt文檔。robots.txt是啥子?實際上在此前惠州SEO葉劍輝也已經對此施行了基礎的解釋明白。robots.txt是一種儲存安放在網站空間根目次下的文本文件,是一種協議,用來奉告搜索蛛網站中哪一些可被爬動抓取,哪一些不可以被爬動抓取。不過,在這處,葉劍輝有著這樣一個疑問,robots.txt是否能徹底屏蔽蛛蛛的爬動抓取呢?

robots.txt能屏蔽蛛蛛的爬動抓取

最近幾天,好友襄陽SEO茶妹碰到了這樣一個問題:我確實用robots.txt屏蔽了wordpress中的目次文件呀,為何蛛蛛每天還是跟平常一樣爬動呢?然後,葉劍輝天然便查網站robots.txt文檔,以下便是對wordpress目次屏蔽設置:

Disallow: /wp-admin

Disallow: /wp-content

Disallow: /wp-includes

在檢查過後,發覺了這樣一個問題,這是目次文件屏蔽,不過,這屏蔽設置後邊卻仿佛好象缺乏了/,而葉劍輝施行諮詢時,好友卻是這樣覺得:目次文件前面加上了/就可以了,後邊加不加都同樣的呀。對此,葉劍輝卻是另一種看法,在後邊加上與未加上/,對於蛛蛛而言是兩下位概念,加上了是奉告蛛蛛,這是一個文件夾,而未加上即奉告蛛蛛這是一個文件,也因為這個造成確實在robots.txt上做好了設置,卻沒能管用的屏蔽。當然這僅只是葉劍輝的私人看法。

繼而,好友服從提議將robots.txt改正為:

Disallow: /wp-admin/

Disallow: /wp-content/

Disallow: /wp-includes/

成功改正後便在百度站長平臺施行提交處理從新生成操作(需求注意的是,若被動提交處理生成,靠蛛蛛自行出產的話,耗時較長的喔),在當天也就發生效力了。隔將來再對日記施行檢查,發覺蛛蛛對這三個wordpress下的目次實在不再爬動抓取了。

從這樣一點兒上看,在我們施行網站SEO優化之時,著實不可以疏忽不論什麼細節,僅只一個/,可帶來的卻是不同的效果。

robots.txt不可以徹底屏蔽蛛蛛的爬動抓取

而在這一問題目解釋題決後,好友在這文件屏蔽上卻又有了另一問題:確實把某個目次屏蔽了呀,為何蛛蛛仍然能夠抓取收錄該目次下的某個文件呢?

那末,在這處葉劍輝就需求做一個解釋明白,robots.txt協議並非是一個標准,一個規范,只是約定俗成罷了而已,一般搜索引擎網站會辨別這個文件,但也有一點特別事情狀況。(如之前的360事情就不作為此次商議內部實質意義)

不管是百度亦或是谷歌,某個頁面只要有其它網站鏈接到該頁面的話,一樣可能會被引得和收錄。要想徹底屏蔽頁面文件被谷歌引得的話(縱然有其它網站鏈接到該頁面文件),則需求在頁面head中插進去noindex元標記或x-robots-tag。如下所述:

meta name=googlebot content=noindex

當谷歌蛛蛛看見頁面上著noindex的元標記,便會將此頁從谷歌搜索最後結果中絕對拋棄,漠視是否還有其它頁鏈接至此頁。

而百度呢?對於百度而言,並不支持如谷歌那般經過noindex絕對將網頁從引得上刪去,僅支持noarchive元標記來嚴禁百度顯露網頁快照。具體語句如下所述:

meta name=Baiduspider content=noarchive

上頭這個標記只是嚴禁百度顯露該頁面快照,但百度仍會為其建引得,並在搜索最後結果中顯露網頁提要。

家喻戶曉,淘寶網經過robots.txt全站屏蔽百度蛛蛛,可為何我們在百度搜索淘寶網時第1個最後結果也是淘寶網首頁地址呢?而在我們檢查該頁面快照時卻是顯露空白?因為這個看來,網站只能嚴禁百度快照的顯露,卻沒有辦法做到嚴禁百度為網頁建引得。

 

總結語:

回到葉劍輝在文章首段所說到的疑問,robots.txt是否能徹底屏蔽蛛蛛的爬動抓取呢?信任在看見這樣一個問題,會有這樣一小批朋友的應答是肯定的。而這只能說,我們都缺乏了特長去發覺的心,而對於沒能管用屏蔽蛛蛛抓取,只能解釋明白咱們的優化工做作得不夠精密細致。

由這樣兩個robots.txt的小問題上,葉劍輝覺得,阻擋我們進階為SEO聖手的也許便是那特長發覺問題的心和精密細致化的執行力。

原文出自惠州SEO博客 葉劍輝原創供稿。