一、IIS日志的設置。
下面文章以為例解讀:第一個步驟:打開IIS服務器。選擇所要設置的網站屬性。彈出如下窗口:
選擇啟用日志記錄,勾選,選擇W3C擴展日志文件格式。
第二步驟:再次點擊這裡的屬性按鈕,常規選項裡面,選擇新日志計劃為每天,當然也可以選擇其他,選擇好保存日志文件的目錄
很多SEO設置到這裡,點擊確定之後,發現IIS日志已經開始記錄,但是無論如何都找不到搜索引擎爬蟲的痕跡,類似於Baiduspider+怎麼都看不到,其實,我們還應該做第三個輔助步驟,因為默認的IIS日志是不開啟這個功能的。
第三個步驟:選擇高級選項。勾選底下的用戶代理(cs(User-Agent))等選項,我一般都將最下面的三個選項勾選起來。這樣,你才可以看到百度等爬蟲的名稱。
第四個步驟:如果你全部按照上面設置之後,發現你的IIS日志還沒開始記錄,也就是本次困擾瞭我非常久的問題,那麼最重要的一步就是檢查相關的設置是否都完整。有的朋友說IIS日志不記錄是因為系統服務WINDOWS time 沒啟動,或者系統的權限不正確等,比如沒讓IIS日志保存的那個文件夾有和IIS一樣的權限之類,其實沒有這麼復雜,把下圖的記錄訪問選項勾選即可。這樣你的IIS日志就開始正常記錄瞭。
二、如何分析網站IIS日志中的搜索引擎爬蟲軌跡
首先,加入你要搜索百度的爬蟲,那麼就直接在保存記錄的文本文檔上搜索Baiduspider,我們節選以下一行來做詳細的分析:
2009-04-09 13:02:40 W3SVC321 121.199.136.181 GET /index.html – 80 – 61.135.168.39 Baiduspider+(+/search/spider.htm) 200 0 64- –
這段IIS日志代碼表示:在2009-04-09 13:02:40這個時間,百度搜索引擎的蜘蛛(ip地址為61.135.168.39,後面的/search/spider.htm是關於Baiduspider+的相關問題)訪問瞭服務器ip為121.199.136.181的網站,並且抓取瞭首頁/index.html,該日志記錄保存在 W3SVC321文件夾。
其中,兩個地方值得說明:
一是代碼中的200表示搜索引擎蜘蛛爬行後返回HTTP的狀態代碼,代表成功爬行並抓取。
各個數字代碼的具體意思參見如下:
2xx 成功
200 正常;請求已完成。
201 正常;緊接 POST 命令。
202 正常;已接受用於處理,但處理尚未完成。
203 正常;部分信息 返回的信息隻是一部分。
204 正常;無響應 已接收請求,但不存在要回送的信息。
3xx 重定向
301 已移動 請求的數據具有新的位置且更改是永久的。
302 已找到 請求的數據臨時具有不同 URI。
303 請參閱其它 可在另一 URI 下找到對請求的響應,且應使用 GET 方法檢索此響應。
304 未修改 未按預期修改文檔。
305 使用代理 必須通過位置字段中提供的代理來訪問請求的資源。
306 未使用 不再使用;保留此代碼以便將來使用。
4xx 客戶機中出現的錯誤
400 錯誤請求 請求中有語法問題,或不能滿足請求。
401 未授權 未授權客戶機訪問數據。
402 需要付款 表示計費系統已有效。
403 禁止 即使有授權也不需要訪問。
404 找不到 服務器找不到給定的資源;文檔不存在。
407 代理認證請求 客戶機首先必須使用代理認證自身。
410 請求的網頁不存在(永久);
415 介質類型不受支持 服務器拒絕服務請求,因為不支持請求實體的格式。
5xx 服務器中出現的錯誤
500 內部錯誤 因為意外情況,服務器不能完成請求。
501 未執行 服務器不支持請求的工具。
502 錯誤網關 服務器接收到來自上遊服務器的無效響應。
503 無法獲得服務 由於臨時過載或維護,服務器無法處理請求。
二是各大搜索引擎爬蟲(蜘蛛)的名稱整理如下,大傢可以對號入座:
1. Google爬蟲名稱
1) Googlebot:從Google的網站索引和新聞索引中抓取網頁
2) Googlebot-Mobile針對Google的移動索引抓取網頁
3) Googlebot-Image:針對Google的圖片索引抓取網頁
4) Mediapartners-Google:抓取網頁確定 AdSense 的內容。隻有在你的網站上展示 AdSense 廣告的情況下,Google才會使用此漫遊器來抓取您的網站。
5) Adsbot-Google:抓取網頁來衡量 AdWords 目標網頁的質量。隻有在你使用 Google AdWords 為你的網站做廣告的情況下,Google才會使用此漫遊器。
2. 百度(Baidu)爬蟲名稱:Baiduspider
3. 雅虎(Yahoo)爬蟲名稱:Yahoo Slurp
4. 有道(Yodao)蜘蛛名稱:YodaoBot
5. 搜狗(sogou)蜘蛛名稱:sogou spider
6. MSN的蜘蛛名稱:Msnbot
參考資料/