從4大微博平臺的robots文件設置學到的

  實際上泉州seo孤藤之前看過昝輝老師的《se實際作戰password》,裡邊講到的robots.txt只是,私人感受仍然很周密的,也沒研討過大型網站都是怎麼設置的,今日想起,來剖析下國內微博新浪、騰訊、搜狐、網易4大平臺各自的robots.txt文件的設置,robots怎麼寫。

  1.新浪微博

  


  解釋明白:准許全部搜索引擎網站抓取

  2.騰訊微博

  


  解釋明白:准許全部搜索引擎網站抓取,除開一點系統文件。並且加了兩條網站地圖,一個是證明會員私人微博主頁底地址,另一個是微博留言的地址。xml款式網站地圖有個限止是一個地圖文件裡最多只能羅布5萬個url,一個文件最大不可以超過10m,超多的話可以新建個網站地圖放,孤藤特地去查了下 騰訊微博的第1個xml地圖,地圖文件裡有41000左右的url,2m多大。過段時間再看看騰訊是不是也是新建網站地圖處置過多的url的。

  3.搜狐微博

  


  搜狐微博是最有趣兒的,由於前幾個月興起的迅速網站關鍵詞名次借助的就是搜狐微博本身的高權重,後來傳聞搜狐微博屏蔽了百度蛛蛛,讓我們來看看這robots.txt文件。第1個局部語句是准許百度蛛蛛抓取,第二個局部語句是准許搜狗抓取,第三個局部語句是嚴禁全部搜搜引擎抓取。

  而依據百度官方的文件說的——需求加意的是Disallow與Allow行的順著次序是有意義的,robot會依據第1個般配成功的Allow或Disallow行確認是否過訪某個URL。

  因為這個最終一小批語句對百度和搜狗是失效的。也就是說搜狐微博只准許百度和搜狗來抓取頁面。

  這邊還有一點兒是,孤藤發覺搜狐微博的robots.txt相差無幾在六月份兒左右時間做了改正,屏蔽出百度、搜狗外其它搜索引擎網站的抓取,不過其它搜索引擎網站的確照樣引得,收錄量也不斷在增加,不一樣的是 谷歌、有道、bing僅只只是引得,沒有收錄。 搜索仿佛好象不支持robot文件仍然怎麼,照樣收錄有快照、提出取得描寫書契。雅虎也照樣收錄,只是快照料不到,不可以判斷是否是僅只引得。

  4.網易微博

  


  網易微博找不到robots文件

  再來看看四大博客平臺的收錄事情狀況:

百度總收錄
百度當日收錄(半晌)
備注
新浪微博
870萬

6400
pr8 准許全部搜索引擎網站抓取
騰訊微博
122萬
1萬500
pr6 准許全部搜索引擎網站抓取
搜狐微博
2580萬
1580
pr6 准許百度、搜狗抓取
網易微博
53萬7000
792
pr6 沒有設限

  從上頭可以看見騰訊微博的收錄日收錄量遠超其它微博,日收錄名次為 騰訊微博>新浪微博>搜狐微博>網易微博

  今天晚上也是心思和精力來潮,想說說這幾個微博,該歇息了,睡個幾個鍾頭,明天早上還的爬起來。本文泉州seo孤藤()私人愚見,熱烈歡迎拍磚。