淺析『Twitter技術問題』 解密網站動蕩真象

  家喻戶曉,twitter在前段時間,PR值由9降到達0,況且很多頁面不被谷歌Robot抓取,眾人嘩然!固然如今已經還原。不過這是怎麼回事呢?北京網站優化研討核心編輯獨孤依風援用谷奥的內部實質意義為大家解密下twitter網站動蕩真象!

  首先,Twitter PR及很多頁面不被抓取是由自身技術引動的,跟谷歌的搜索機制沒相關系。

  造成twitter此次動蕩的有五大技術問題:

  (1)robots設置問題

  twitter在設置Robots時,針對帶WWW和不帶WWW設置了兩個Robots標准。如下所述所示:(A為不帶www的Robots設置,B為帶WWW的Robots設置)

A:The file at twitter.com/robots.txt looks as follows:

#Google Search Engine Robot
User-agent: Googlebot
# Crawl-delay: 10 — Googlebot ignores crawl-delay ftl
Allow: /*?*_escaped_fragment_
Disallow: /*?
Disallow: /*/with_friends

#Yahoo! Search Engine Robot
User-Agent: Slurp
Crawl-delay: 1
Disallow: /*?
Disallow: /*/with_friends

#Microsoft Search Engine Robot
User-Agent: msnbot
Disallow: /*?
Disallow: /*/with_friends

# Every bot that might possibly read and respect this file.
User-agent: *
Disallow: /*?
Disallow: /*/with_friends
Disallow: /oauth
Disallow: /1/oauth

B:the file at /robots.txt file looks as follows:

User-agent: *
Disallow: /

  twitter針對帶www和不帶www設置了兩個不一樣的Robots標准,這麼就可以看出:

  1、針對帶WWW和不帶WWW的網站,搜索引擎網站依照Robots標准,回返的搜索最後結果不一,同時也不規范。

  2、twitter在阻擋搜索引擎網站抓取帶WWW的網址。

  3、經過封鎖帶www的網站,縱然將其301重定向到不帶www的網站,那也是徒勞往返!

  4、因為帶www和不帶www的都有外部鏈接,不過帶www的阻擋搜索引擎網站抓取,那末對於提高twitter網站群體權重來說,該外部鏈接的價值並沒有獲得管用利用!

  (2)302重定向問題

  twitter.com / vanessafox運用了302重定向到twitter.com /#!/ vanessafox。家喻戶曉,302重定向為短時間之內性轉移,會抓取新內部實質意義而保留舊網址,況且原來的鏈接不會所有轉移!

  (3)沒有篤守谷歌AJAX抓取標准

  Twitter的網址是AJAX和運用#!,奉告谷歌從服務器取得_escaped_fragment_版本的URL。因為沒有運用301重定向,造成錯過了眾多有關URL頁面,沒有將AJAX和重定向美好地接合起來。

  (4)效率限止

  在HTTP標頭可以看到效率限止。

  HTTP/1.1 200 OKDate: Mon, 18 Jul 2011 20:48:44 GMTServer: hiStatus: 200 OKX-Transaction: 1311022124-32783-45463X-RateLimit-Limit: 1000

  (5)網址不規范

  twitter.com / VanessaFox顯露搜索最後結果,是twitter.com / vanessafox。這兩個URL造成了同一個地方。這是導致再度的PageRank稀釋,重復,和規范化問題。這處最好的方法是正常化的網址一個變

  化(最簡單的辦法是挑選所有小寫),而後301重定向全部變動。額外,Twitter的可以簡單地添加的rel =規范屬性指決定范版本的全部網頁 。

  從以上可以看出,Twitter是有麻煩的robots.txt,HTTP狀況代碼和URL規范化。這是眾多大型網站面對的問題。至於谷歌PR工具欄是否按F5,那是谷歌的問題。

  從Twitter技術破綻可以告誡各位站長:

  (1)設置Robots必須要一統,集中權重,以防迷路。(2)302重定向沒有301重定向好(3)務必篤守谷歌AJAX抓取標准(4)不要在HTTP標頭限止效率(5)網址要規范,一統,不可以夾雜在一塊兒隨心亂用!

  來文首發於獨孤依風seo核心() 站長獨孤依風原創!如果過載,請保存原文鏈接地址!互聯網精英第1群:76933546,誠邀廣大知名站長參加!