王大君:搜索引擎網站蛛蛛啥子時刻來過你的網站

  網站的名次、收錄都要常常關心注視搜索引擎網站,大家常常談判到蛛蛛抓取,那末怎麼確認蛛蛛有沒有來過你的網站呢?

  一般網站的日記會奉告我們這些個信息,這處以王大君網絡營銷博客為例。作者運用的是虛擬空間,在作者網站根目次下的log文件夾裡邊有一點ex日子.log文本文件。在這處王大君提示大家,假如在你的log文件夾裡沒有文件,有可能需求你到虛擬空seo間後臺先下載日記文件到FTP空間,也就是下載到你的網站根目次的log文件夾時裡。我們挑選ex101116.log下載到本地,這個文件就是王大君網絡營銷博客網站2010年十一月十六號的日記,用記事本敞開,在日記文件中搜索spider這個詞,也就是蛛蛛的意思。可能會發覺以下的代碼:

  google蛛蛛: googlebot

  百度蛛蛛:baiduspider

  yahoo蛛蛛:slurp

  soso蛛蛛:sosospider

  msn蛛蛛:msnbot

  有道蛛蛛:YodaoBot和OutfoxBot

  搜狗蛛蛛:sougouspider

  當然,前提是這些個蛛蛛來過你的網站,否則是沒有這些個代碼的。

  我們挑選一條百度蛛蛛代碼baiduspider的記錄,看下裡邊的代碼:

  2010-11-15 18:18:10 174.192.105.6 GET /post/5.html – 80 – 220.181.108.166 Baiduspider+ (+是百度蛛蛛過訪的頁面 get表達取得的意思。

  3、80是端口

  4、220.181.108.166是百度蛛蛛的ip地址

  5、Baiduspider+(+/search/spider.htm)就是指百度蛛蛛了

  6、200表達抓取成功,這是百度蛛蛛爬動後回返的代碼。

  額外還有一點其它的代碼:

  2xx 成功

  200 正常;煩請已完成。

  201 正常;緊接 POST 指示。

  202 正常;已接納用於處置,但處置尚未完成。

  203 正常;局部信息 — 回返的信息只是一小批。

  204 正常;無響應 — 已收繳煩請,但不存在要回送的信息。

  3xx 重定向

  301 已移動 — 煩請的數值具備新的位置且更改是長久的。

  302 已找到 — 煩請的數值臨時具備不一樣 URI。

  303 請參看其他 — 可在另一 URI 下找到對煩請的響應,且應運用 GET 辦法檢索此響應。

  304 未改正 — 未按預先期待改正文檔。

  305 運用攝理 — 務必經過位置字段中供給的攝理前來訪問問煩請的資源。

  306 未運用 — 不再運用;保存此代碼以便日後運用。

  4xx 客戶機中顯露出來的不正確

  400 不正確煩請 — 煩請中有語法問題,或不可以滿意煩請。

  401 未權力委托 — 未權力委托客戶機過訪數值。

  402 需求付款 — 表達計費系統已管用。

  403 嚴禁 — 縱然有權力委托也不必過訪。

  404 找不到 — 服務器找不到給定的資源;文檔不存在。

  407 攝理證明煩請 — 客戶機首先務必運用攝理證明自身。

  410 煩請的網頁不存在(長久);

  415 媒介類型不受支持 — 服務器不接受服務煩請,由於不支持煩請實際體的款式。

  5xx 服務器中顯露出來的不正確

  500 內裡不正確 — 由於不測事情狀況,服務器不可以完成煩請。

  501 未執行 — 服務器不支持煩請的工具。

  502 不正確網關 — 服務器收繳來臨自上游服務器的失效響應。

  503 沒有辦法取得服務 — 因為臨時轉載或保護,服務器沒有辦法處置煩請。

  關於日記的剖析今日我們就說到這處,假如大家有其它的見地,熱烈歡迎交流商議。