蘇笛康:實測搜狐微博是否屏蔽百度蛛蛛

  事情:

  只要理解SEO的朋友都曉得近來利用搜狐微seo博強力奪百度長尾詞流量的事物。因為各種端由,蘇笛康並未糅合進這件事。2011年六月九號,蘇笛康存在的地方的團隊QQ群忽然轉發一個消息兒,稱搜狐微博屏蔽百度蛛蛛了,並供給了一個Admin5論壇的帖子的URL。經不為己甚析,蘇笛康覺得,搜狐微博並未屏蔽百度蛛蛛,上面所說的輿論是對搜狐微博的Robots.txt文件誤讀引動的。

  材料:

  搜狐微博Robots.txt文件內部實質意義(2011年六月九號晚):

  User-agent: Baiduspider

  Disallow:

  User-agent: Sogou

  Allow: /

  User-agent: *

  Disallow: /

  剖析:

  首先,我們看搜狐微博Robots.txt第1小批,針對的是百度蛛蛛。

  在百度搜索幫忙核心的指南()可以找到這樣一句——Disallow:解釋明白准許robot過訪該網站的全部URL。

  因為這個,第1小批的語句,准許百度蛛蛛抓取全部的URL。

  第二局部就無須看了,界定的是搜狗搜索引擎網站的蛛蛛抓取職權范圍。

  最終我們看第三局部,這局部運用通配符,框定全部的搜索引擎網站,不准許抓取根目次(相當於不准許抓取不論什麼URL)。這處我們還是需求關心注視百度搜索幫忙核心的詮釋。百度官方的文件是這麼說的——需求加意的是Disallow與Allow行的順著次序是有意義的,robot會依據第1個般配成功的Allow或Disallow行確認是否過訪某個URL。所以,第三局部的嚴禁指令,對百度蛛蛛而言,是失效的。百度蛛蛛依據第1小批的要求,可以抓取全部URL。

  實測:

  空口無憑,我們可以實際測試一下子。已知百度和Google看待Robots.txt文件的處置形式是同樣的,因而我們可以運用谷歌網站管理職員具中的抓取工具的職權范圍功能來測試一下子。

  因為谷歌網站管理職員具只能測試已經證驗佔有權的網站,我這處用自個兒的博客來測試。

  首先在測嘗試使用的Robots.txt中填寫如下所述信息:

  User-agent: Googlebot

  Disallow:

  User-agent: Sogou

  Allow: /

  User-agent: *

  Disallow: /

  (注意,受測試背景影響,運用Googlebot接替百度蛛蛛,然而這不影響測試最後結果)

  而後用谷歌網站管理職員具測試Googlebot抓取首頁()的最後結果,反饋如下所述:

  第 2 行 Disallow: 准許過訪此網址

  檢驗測定為目次;具體文件有可能有不一樣限止

  實測證實,搜狐微博的Robots.txt沒有屏蔽百度蛛蛛。

  經驗:

  投身SEO辦公,要看得起兩個物品:第1,搜索引擎網站官方的公開文檔,特別是百度和Google的正式資料,這些個資料會透漏眾多搜索引擎網站對網頁的處置辦法;第二,要看得起谷歌供給的各種工具,特別是網站管理職員具,可以經過這些個工具施行各種測試。