詳談蜘蛛爬行網站日志返回的代碼

  對於一個站長來說應該非常有必要和需要清楚的知道自己網站的一個綜合信息,包括當天來瞭多少IP,有瞭多少轉換率,用戶是通過什麼途徑進入到你的網站的,這些站長都必須得非常清楚的知道!網站的排名、收錄都要經常關註搜索引擎,大傢經常會談到蜘蛛抓取,那麼怎麼確定蜘蛛有沒有來過你的網站呢?  通常網站的日志會告訴我們這些信息。下面就告訴大傢搜索引擎蜘蛛什麼時候來過你的網站及爬行後返回的代碼:

  通常網站的日志會告訴我們這些信息。筆者使用的是虛擬空間,在筆者網站根目錄下的log文件夾裡面有一些ex日期.log文本文件。在這裡提醒大傢,如果在你的log文件夾裡沒有文件,可能需要你到虛擬空間後臺先下載日志文件到FTP空間,也就是下載到你的網站根目錄的log文件夾時裡。我選擇ex101116.log下載到本地,用記事本打開,在日志文件中搜索spider這個詞,也就是蜘蛛的意思。有可能會發現以下的代碼:

  google蜘蛛: googlebot

  百度蜘蛛:baiduspider

  yahoo蜘蛛:slurp

  soso蜘蛛:sosospider

  msn蜘蛛:msnbot

  有道蜘蛛:YodaoBot和OutfoxBot

  搜狗蜘蛛:sougouspider

  當然,前提是這些蜘蛛來過你的網站,否則是沒有這些代碼的。

  我們選擇一條百度蜘蛛代碼baiduspider的記錄,看下裡面的代碼:

  舉例:2010-11-15 18:18:18 174.192.105.6 GET /news-2011-4-11.html – 80 -220.181.108.166

  Baiduspider+ (+/search/spider。htm) – 200 ….

  下面我來解釋下這段代碼:

  1、2010-11-15 18:18:18 是百度蜘蛛來的日期和時間。

  2、 GET /news-2011-4-11.html是百度蜘蛛訪問的頁面 get表示獲取的意思。

  3、80是端口

  4、220.181.108.166是百度蜘蛛的ip地址

  5、Baiduspider+(+www。baidu。com/search/spider。htm)就是指百度蜘蛛瞭

  6、 我自已網站的地址

  7、200表示抓取成功,這是百度蜘蛛爬行後返回的代碼。

  另外還有一些其他的代碼代表的狀態:

  2xx 成功

  200 正常;請求已完成。

  201 正常;緊接 POST 命令。

  202 正常;已接受用於處理,但處理尚未完成。

  203 正常;部分信息 返回的信息隻是一部分。

  204 正常;無響應 已接收請求,但不存在要回送的信息。

  3xx 重定向

  301 已移動 請求的數據具有新的位置且更改是永久的。

  302 已找到 請求的數據臨時具有不同 URI。

  303 請參閱其它 可在另一 URI 下找到對請求的響應,且應使用 GET 方法檢索此響應。

  304 未修改 未按預期修改文檔。

  305 使用代理 必須通過位置字段中提供的代理來訪問請求的資源。

  306 未使用 不再使用;保留此代碼以便將來使用。

  4xx 客戶機中出現的錯誤

  400 錯誤請求 請求中有語法問題,或不能滿足請求。

  401 未授權 未授權客戶機訪問數據。

  402 需要付款 表示計費系統已有效。

  403 禁止 即使有授權也不需要訪問。

  404 找不到 服務器找不到給定的資源;文檔不存在。

  407 代理認證請求 客戶機首先必須使用代理認證自身。

  410 請求的網頁不存在(永久);

  415 介質類型不受支持 服務器拒絕服務請求,因為不支持請求實體的格式。

  5xx 服務器中出現的錯誤

  500 內部錯誤 因為意外情況,服務器不能完成請求。

  501 未執行 服務器不支持請求的工具。

  502 錯誤網關 服務器接收到來自上遊服務器的無效響應。

  503 無法獲得服務 由於臨時過載或維護,服務器無法處理請求。

  最近發現一些仿冒Baiduspider抓取的情況,提供兩種判斷是否為Baiduspider的方法。

  方法1Linux環境下

  您可以使用host ip命令反解ip來判斷Baiduspider的抓取是否冒充。Baiduspider的hostname以*.baidu.com的格式命名,非*.baidu.com即為冒充。

  $ host 123.125.66.120

  120.66.125.123.in-addr.arpa domain name pointer baiduspider-123-125-66-120.crawl.baidu.com.

  方法2windows環境下

  開始->運行->tracert 123.456.78.90(即抓取您網站的IP地址)

  或者開始->運行->nslookup 123.456.78.90

  查看name信息,未標識為Baiduspider即為冒充。

  本文原創:瑞麗女人網 (Www.Qubaqu.com) 轉載請務必註明出處.