剖析下怎麼樣檢查網站被百度抓取的事情狀況

  百度用於抓取網頁的手續叫做Baiduspider – 百度蛛蛛,我們檢查網站被百度抓取的事情狀況主要是剖析,網站日記裡百度蛛蛛Baiduspider的活躍性:抓取頻率,回返的HTTP狀況碼。

  檢查日記的形式:

  經過FTP,在網站根目次找到一個日記文件,文件名普通裡面含有log,下載解壓裡邊的記事本,這即seo是網站的日記,記錄了網站被過訪和操作的事情狀況。

  由於各個服務器和主機的事情狀況不一樣,不一樣的主機日記功能記錄的內部實質意義不一樣,有的甚至於沒有日記功能。

  日記內部實質意義如下所述:

  61.135.168.22 – – [11/Jan/2009:04:02:45 +0800] GET /bbs/thread-7303-1-1.html HTTP/1.1 200 8450 – Baiduspider+(+ 代表,抓取/bbs/thread-7303-1-1.html 這個頁面。

  200 代表成功抓取。

  8450 代表抓取了8450個字節。

  假如你的日記裡款式不是這麼,則代表日記款式設置不一樣。

  眾多日記裡可以看見 200 0 0和200 0 64 則都代表正常抓取。

  抓取頻率是經過檢查每天的日記裡百度蛛蛛抓取回數來獲悉。抓取頻率並沒有一個規范的時間表或頻率數碼,我們普通經過多日的日記相比較來判斷。當然,我們期望百度蛛蛛每天抓取的回數越多越好。