新浪博客更新robot文件 『屏蔽門』錯怪消弭

  前幾日有文章稱因為很多站長濫發信息做外鏈,造成垃圾博文塞滿新浪博客,因為這個新浪博客著手屏蔽百度蛛蛛,有網友發覺大多新浪博客快照在百度中已經沒有更新,經過檢查新浪robots文件(http://blog.sina.om.cn/robots.txt)發覺其內部實質意義為:

  #####################################################

  # SINA BLOG 嚴禁搜索引擎網站收錄配備布置文件

  # 文件: ~/robots.txt

  # 編著: 阿狼

  # 日子: 2005-03-24

  #####################################################

  #開放百度的搜索引擎網站的User-Agent代碼,*表達全部###########

  User-agent: Baiduspider

  #限止不可以搜索的目次,Disallow: 為空時開放全部目次####

  Disallow: /admin/

  Disallow: /include/

  Disallow: /html/

  Disallow: /queue/

  Disallow: /config/

  #限止的搜索引擎網站的User-Agent代碼,*表達全部###########

  User-agent: *

  #臨完成期限制對全部目次的嚴禁抓取

  Disallow: /

  因為該文件中有一句:User-agent: Baiduspider 由此眾多站長分辨斷定,新浪已經徹底屏蔽百度蛛蛛,從今以後靠養新浪博客做外鏈的辦法已經不可以得通了。

  看見這則消息兒後,我感受有幾個疑點:

  1、新浪作為世界知名的漢字門戶網站,其數值處置有經驗,違規內部實質意義管理辦法,都完全可以對付到現在為止的垃圾信息,而屏蔽百度蛛蛛會造成流量大減,這與新浪的進展戰略不合適。

  2、該robots文件的日子為:2005-03-24,仿佛好象是新浪博客剛上線的時刻樹立的文件,假如近期新浪的網管改正過robots的話,日子應當更改為新的日子。

  3、知道得清楚robots寫法的朋友都曉得,該robots.txt文件中僅只是是設置了嚴禁百度蛛蛛過訪後臺文件夾,並沒有其它限止。

  基於以上幾點疑慮,我感受文章中的觀點有差錯的地方,事物應當沒有那末糟糕,果不其然在八月十八號有網友發覺新浪博客悄悄兒地改易了robots.txt文件,內部實質意義改為:

  #開放百度的搜索引擎網站的User-Agent代碼

  User-agent: Baiduspider

  #限止不可以搜索的目次,Disallow: 為空時開放全部目次####

  Disallow: /admin/

  Disallow: /include/

  Disallow: /html/

  Disallow: /queue/

  Disallow: /config/

  #開放bing.com的搜索引擎網站的User-Agent代碼

  User-agent: msnbot

  #限止不可以搜索的目次,Disallow: 為空時開放全部目次####

  Disallow: /admin/

  Disallow: /include/

  Disallow: /html/

  Disallow: /queue/

  Disallow: /config/

  User-agent: bing

  #限止不可以搜索的目次,Disallow: 為空時開放全部目次####

  Disallow: /admin/

  Disallow: /include/

  Disallow: /html/

  Disallow: /queue/

  Disallow: /config/

  #限止的搜索引擎網站的User-Agent代碼,*表達全部###########

  User-agent: *

  #臨完成期限制對全部目次的嚴禁抓取

  Disallow: /

  #限止不可以搜索的目次,Disallow: 為空時開放全部目次####

  ##Disallow: /admin/

  ##Disallow: /include/

  ##Disallow: /html/

  ##Disallow: /queue/

  ##Disallow: /config/

  #開放搜索的目次有####################################

  # /

  # /advice/

  # /help/

  # /lm/

  # /main/

  # /myblog/

  可以看出新改正的robots.txt文件中的寫法已經絕對支持各類主流搜索引擎網站抓取博客內部實質意義,一個開放的新浪博客又歸來了!

  針對前幾日顯露出來的事情狀況,私人料想有可能是因為以下幾種端由:

  1、前幾日大多新浪博客被K,有可能是因為百度調試算法所造成的。

  2、原來的robots.txt文件很有可能是新浪博客剛上線得屆時樹立的,因為當初google還沒有正式進入了中國,漢字搜索仍然百度一家獨大,因為這個設置的內部實質意義主要針對百度,從這以後該文件一直沒有改正,一直到近來被網友發覺,新浪辦公擔任seo職務的人纔想起從新改正。

  固然這次屏蔽門只是一場虛驚,不過也給各位站長敲響了警鍾,不要一味的認識不清濫發垃圾信息,及污染了互聯網背景又浪費了網絡服務商的資源,謹慎竭澤而漁!培育10個高品質的博客比養100個垃圾博客更管用!