網站優化程序中IIS日志的設置

  一、IIS日志的設置。

  下面文章以為例解讀:第一個步驟:打開IIS服務器。選擇所要設置的網站屬性。彈出如下窗口:

  選擇啟用日志記錄,勾選,選擇W3C擴展日志文件格式。

  第二步驟:再次點擊這裡的屬性按鈕,常規選項裡面,選擇新日志計劃為每天,當然也可以選擇其他,選擇好保存日志文件的目錄

  很多SEO設置到這裡,點擊確定之後,發現IIS日志已經開始記錄,但是無論如何都找不到搜索引擎爬蟲的痕跡,類似於Baiduspider+怎麼都看不到,其實,我們還應該做第三個輔助步驟,因為默認的IIS日志是不開啟這個功能的。

  第三個步驟:選擇高級選項。勾選底下的用戶代理(cs(User-Agent))等選項,我一般都將最下面的三個選項勾選起來。這樣,你才可以看到百度等爬蟲的名稱。

  第四個步驟:如果你全部按照上面設置之後,發現你的IIS日志還沒開始記錄,也就是本次困擾瞭我非常久的問題,那麼最重要的一步就是檢查相關的設置是否都完整。有的朋友說IIS日志不記錄是因為系統服務WINDOWS time 沒啟動,或者系統的權限不正確等,比如沒讓IIS日志保存的那個文件夾有和IIS一樣的權限之類,其實沒有這麼復雜,把下圖的記錄訪問選項勾選即可。這樣你的IIS日志就開始正常記錄瞭。

  二、如何分析網站IIS日志中的搜索引擎爬蟲軌跡

  首先,加入你要搜索百度的爬蟲,那麼就直接在保存記錄的文本文檔上搜索Baiduspider,我們節選以下一行來做詳細的分析:

  2009-04-09 13:02:40 W3SVC321 121.199.136.181 GET /index.html – 80 – 61.135.168.39 Baiduspider+(+/search/spider.htm) 200 0 64- –

  這段IIS日志代碼表示:在2009-04-09 13:02:40這個時間,百度搜索引擎的蜘蛛(ip地址為61.135.168.39,後面的/search/spider.htm是關於Baiduspider+的相關問題)訪問瞭服務器ip為121.199.136.181的網站,並且抓取瞭首頁/index.html,該日志記錄保存在 W3SVC321文件夾。

  其中,兩個地方值得說明:

  一是代碼中的200表示搜索引擎蜘蛛爬行後返回HTTP的狀態代碼,代表成功爬行並抓取。

  各個數字代碼的具體意思參見如下:

  2xx 成功

  200 正常;請求已完成。

  201 正常;緊接 POST 命令。

  202 正常;已接受用於處理,但處理尚未完成。

  203 正常;部分信息 返回的信息隻是一部分。

  204 正常;無響應 已接收請求,但不存在要回送的信息。

  3xx 重定向

  301 已移動 請求的數據具有新的位置且更改是永久的。

  302 已找到 請求的數據臨時具有不同 URI。

  303 請參閱其它 可在另一 URI 下找到對請求的響應,且應使用 GET 方法檢索此響應。

  304 未修改 未按預期修改文檔。

  305 使用代理 必須通過位置字段中提供的代理來訪問請求的資源。

  306 未使用 不再使用;保留此代碼以便將來使用。

  4xx 客戶機中出現的錯誤

  400 錯誤請求 請求中有語法問題,或不能滿足請求。

  401 未授權 未授權客戶機訪問數據。

  402 需要付款 表示計費系統已有效。

  403 禁止 即使有授權也不需要訪問。

  404 找不到 服務器找不到給定的資源;文檔不存在。

  407 代理認證請求 客戶機首先必須使用代理認證自身。

  410 請求的網頁不存在(永久);

  415 介質類型不受支持 服務器拒絕服務請求,因為不支持請求實體的格式。

  5xx 服務器中出現的錯誤

  500 內部錯誤 因為意外情況,服務器不能完成請求。

  501 未執行 服務器不支持請求的工具。

  502 錯誤網關 服務器接收到來自上遊服務器的無效響應。

  503 無法獲得服務 由於臨時過載或維護,服務器無法處理請求。

  二是各大搜索引擎爬蟲(蜘蛛)的名稱整理如下,大傢可以對號入座:

  1. Google爬蟲名稱

  1) Googlebot:從Google的網站索引和新聞索引中抓取網頁

  2) Googlebot-Mobile針對Google的移動索引抓取網頁

  3) Googlebot-Image:針對Google的圖片索引抓取網頁

  4) Mediapartners-Google:抓取網頁確定 AdSense 的內容。隻有在你的網站上展示 AdSense 廣告的情況下,Google才會使用此漫遊器來抓取您的網站。

  5) Adsbot-Google:抓取網頁來衡量 AdWords 目標網頁的質量。隻有在你使用 Google AdWords 為你的網站做廣告的情況下,Google才會使用此漫遊器。

  2. 百度(Baidu)爬蟲名稱:Baiduspider

  3. 雅虎(Yahoo)爬蟲名稱:Yahoo Slurp

  4. 有道(Yodao)蜘蛛名稱:YodaoBot

  5. 搜狗(sogou)蜘蛛名稱:sogou spider

  6. MSN的蜘蛛名稱:Msnbot

  參考資料/