網站收錄怪象: 那些關於收錄的秘密

SEO之路上難免會碰到一些奇葩的事情,比如網站改版瞭還收錄舊的URL地址、測試網址無緣無故就被收錄瞭導致正式網址不被收錄、換瞭IP結果導致百度收錄不更新瞭等等,大多數的時候大傢都把問題的原因歸結於百度,百度實在有些冤枉。對此,中國服裝網seo負責人飛鷹正義在工程師的指點下為大傢揭開這奧秘。

在開始前先簡單的給大傢講解一點小知識:

域名和IP相當於站點的名字和身份證,IP相當於現如今的身份證,但是身份證IP地址很難記,所以就產生瞭域名。這裡不是給大傢普及歷史知識,隻是現在大多數情況下都采用域名來訪問所以導致大傢忽略瞭一個事實:最終尋址的是身份證號碼也就是IP,不是域名!來看個域名解析的簡化過程圖

通過這裡大傢應該明白一些瞭吧?域名隻是方便我們記憶,而真正的尋址的應該是IP!大傢都知道域名DNS服務器在全球有N個節點,我們新域名剛解析的時候常會碰到某些區域因為DNS數據同步慢而導致訪問不瞭的情況,而老域名換IP的時候也會碰到用戶訪問的還是老IP的想象。這你都知道?別急你還有不知道的!

然而我們的搜索引擎蜘蛛大多數分佈式抓取,自身都建有DNS,一來解決抓取的時候的效率,不必每次都要解析IP後抓取,二來我們站點的主體表現形式都是域名,而不是IP,所以帶著我們的域名host頭去訪問我們的老IP還是會訪問的到,因此就會導致我們開頭提到的一些奇葩怪象。說完基本概念,我們再來詳細分析一下這幾個怪象的具體成因!

一、網站改版瞭還收錄舊的URL地址

這個問題其實跟上面的基礎沒啥太大關系,但每天在百度站長社區問的人實在是太多瞭,也算是收錄的一大奇葩現象,所以在這裡還是拿出來叨一下。

很多站長網站改版瞭啟用瞭新的URL結構,也在站長平臺進行瞭改版提交,但是還是出現收錄舊的URL,遇到這個問題首先我們還是從站點自身的問題找起:

1.是否已經去除所有舊地址入口?

這是個嚴肅的問題,很多朋友因為站點大、結構復雜、改版不徹底導致並沒有去除所有入口頁面,導致新內容產生的同時在一些角落裡還是產生瞭老的入口,隻要鏈接地址還是老的就有可能被收錄。所以要改版要換URL必須徹頭徹尾的把所有鏈接替換為新的URL。為瞭加速生效新的鏈接除瞭站點自身鏈接外盡可能修改一下外部的鏈接,例如友情鏈接。

2.老的URL是否做瞭301到新的URL上?

老的URL是否真的是301到新的URL上面?我也遇到一些奇葩的朋友使用js之類的技術,看起來好像也是跳轉,也像那麼回事,但其實根本不是一回事!

3. 關於百度方面

在做好1和2的基礎上,即使百度收錄瞭舊的鏈接,也不必擔心,因為百度對跳轉屬性的站點和鏈接識別和確認需要一定的時間,而且隻要是穩定的跳轉,最終都會轉換成新鏈接的流量,當然記得通過網站改版工具及時提交改版規則。

二、測試網址無緣無故就被收錄瞭導致瞭正式網址不被收錄

這裡我建議大傢以後測試的時候盡量環境保證本地或者在特定測試環境下才能訪問,否則現在的各種瀏覽器可能會把地址透露出去,也有不小心把地址拿去搜索等渠道導致被搜索引擎收錄那麼對你的站點上線影響還是蠻大的。

1.沒有關閉測試服務器

上面普及知識有提到過,大傢換IP或者換URL地址的時候因為老的服務器沒有關閉,而搜索引擎緩存瞭IP,導致搜索引擎還是可以訪問到這些頁面;

2.沒有刪除IIS綁定

還有一些朋友換瞭IP地址,但是並沒有在老的IP上的網頁服務器上刪除網站綁定,導致搜索引擎帶HOST頭訪問該IP的時候能夠訪問到舊的內容;

一般情況下搜索引擎緩存的時候較長,或者因cdn等因素導致IP同步失敗的都會導致上述情況發生,更換ip以後,可以通過抓取診斷工具測試一下百度是否能夠正確抓取,如果解析到的ip有誤,可點擊抓取診斷詳情中的報錯,通知百度更新您站點的ip。

三、換IP後導致百度不收錄

上面提到搜索引擎會緩存IP,百度在換IP的時候也說過盡量保證老服務器一段時間內可以訪問,為什麼要這樣?因為服務器真的需要時間去同步內容同步IP,而且直接斷瞭老的服務器很容易導致短時間突發404,因此會給站點造成不可預估的問題;

換IP後不收錄原因也是這樣,因為換瞭新服務器數據遷移後導致老服務器的內容並沒有更新,所以這個時候其實是百度根本抓取不到你的更新。因此需要通過上面的方式盡快告訴百度,您站點ip的變動,減少站點流量損失。

結束語:

其實收錄奇葩問題很多,我列舉瞭大部分可能遇到的一些奇葩問題,大部分情況下都是站長存在的一些誤區所導致的。

延伸閱讀:

  • Moz主編談網站優化:十個關於SEO的真、假相
  • Moz專傢:如何將五個網站遷移至一個新域名