網站的名次、收錄都要常常關心注視搜索引擎網站,大家常常談判到蛛蛛抓取,那末怎麼確認蛛蛛有沒有來過你的網站呢?
一般網站的日記會奉告我們這些個信息,這處以王大君網絡營銷博客為例。作者運用的是虛擬空間,在作者網站根目次下的log文件夾裡邊有一點ex日子.log文本文件。在這處王大君提示大家,假如在你的log文件夾裡沒有文件,有可能需求你到虛擬空seo間後臺先下載日記文件到FTP空間,也就是下載到你的網站根目次的log文件夾時裡。我們挑選ex101116.log下載到本地,這個文件就是王大君網絡營銷博客網站2010年十一月十六號的日記,用記事本敞開,在日記文件中搜索spider這個詞,也就是蛛蛛的意思。可能會發覺以下的代碼:
google蛛蛛: googlebot
百度蛛蛛:baiduspider
yahoo蛛蛛:slurp
soso蛛蛛:sosospider
msn蛛蛛:msnbot
有道蛛蛛:YodaoBot和OutfoxBot
搜狗蛛蛛:sougouspider
當然,前提是這些個蛛蛛來過你的網站,否則是沒有這些個代碼的。
我們挑選一條百度蛛蛛代碼baiduspider的記錄,看下裡邊的代碼:
2010-11-15 18:18:10 174.192.105.6 GET /post/5.html – 80 – 220.181.108.166 Baiduspider+ (+是百度蛛蛛過訪的頁面 get表達取得的意思。
3、80是端口
4、220.181.108.166是百度蛛蛛的ip地址
5、Baiduspider+(+/search/spider.htm)就是指百度蛛蛛了
6、200表達抓取成功,這是百度蛛蛛爬動後回返的代碼。
額外還有一點其它的代碼:
2xx 成功
200 正常;煩請已完成。
201 正常;緊接 POST 指示。
202 正常;已接納用於處置,但處置尚未完成。
203 正常;局部信息 — 回返的信息只是一小批。
204 正常;無響應 — 已收繳煩請,但不存在要回送的信息。
3xx 重定向
301 已移動 — 煩請的數值具備新的位置且更改是長久的。
302 已找到 — 煩請的數值臨時具備不一樣 URI。
303 請參看其他 — 可在另一 URI 下找到對煩請的響應,且應運用 GET 辦法檢索此響應。
304 未改正 — 未按預先期待改正文檔。
305 運用攝理 — 務必經過位置字段中供給的攝理前來訪問問煩請的資源。
306 未運用 — 不再運用;保存此代碼以便日後運用。
4xx 客戶機中顯露出來的不正確
400 不正確煩請 — 煩請中有語法問題,或不可以滿意煩請。
401 未權力委托 — 未權力委托客戶機過訪數值。
402 需求付款 — 表達計費系統已管用。
403 嚴禁 — 縱然有權力委托也不必過訪。
404 找不到 — 服務器找不到給定的資源;文檔不存在。
407 攝理證明煩請 — 客戶機首先務必運用攝理證明自身。
410 煩請的網頁不存在(長久);
415 媒介類型不受支持 — 服務器不接受服務煩請,由於不支持煩請實際體的款式。
5xx 服務器中顯露出來的不正確
500 內裡不正確 — 由於不測事情狀況,服務器不可以完成煩請。
501 未執行 — 服務器不支持煩請的工具。
502 不正確網關 — 服務器收繳來臨自上游服務器的失效響應。
503 沒有辦法取得服務 — 因為臨時轉載或保護,服務器沒有辦法處置煩請。
關於日記的剖析今日我們就說到這處,假如大家有其它的見地,熱烈歡迎交流商議。