baidu蛛蛛足跡剖析

baidu蛛蛛足跡剖析

繼寫了《近來baidu和google的收錄差別 /article/20080619/89812.shtml 》在這以後,著手思索,尋覓為何百度不鳥我?

網上有網友寫道baidu有個15天的仔細查看期,不曉得是不是實在。今日後半晌登陸了服務器,檢查剖析IIS日記文件。發覺google和baidu都在我的網站上線第三天,也就是六月十四號就走訪了我的網站,況且第1個過訪的文件都是robots.txt,解釋明白robots.txt文件是何等的關緊。一直到今日纔發覺yaho走訪了我的robots.txt文件,其它搜索引擎網站沒發覺足跡,這就是為何國內搜索市場baidu和google佔了8成以上市場的端由。我估計假如不是我提出請求yahoo的過訪量計數工具,它不曉得會不會走訪我。

baidu和google的舉動速度總算相當快,baidu的舉動也毫比不上google弱。從14號著手,這兩個家伙基本上每日都過訪我的網站,當然google的過訪量相對來說比較次數多,但baidu也不弱到哪兒去,基本上也是天天兒過訪。具體仔細查看了今日的日記,從凌晨0點8分著手,baidu蛛蛛就不斷的來擾亂我睡覺兒,直到後半晌17點,過訪間隔基本上都是1個鍾頭,本來只過訪首頁,到過訪頻帶頁,基本上都是成功的。輕易摘了幾條數值如下所述:

2008-06-16 15:07:23 W3SVC1 202.104.188.69 GET /plus/rssmap.html – 80 – 220.181.32.5 Baiduspider+(+ – 80 – 61.135.168.39 Baiduspider+(+ – 80 – 220.181.32.5 Baiduspider+(+/search/spider.htm) 304 0 0

紅色數碼200表達正常煩請完成,兩個0不曉得啥意思,64也不曉得啥意思,哪位曉得請詮釋一下子,極其拜謝。304表達未改正,就是未按預先期待改正文檔,baidu還要看看你的內部實質意義是否常常更新,所以常常更新網站內部實質意義也是十分關緊的。基本上沒發覺4xx(客戶機中顯露出來不正確)和5xx(服務器顯露出來不正確)等不正確信息,可謂相相比較較友善。

那末為何baidu遲遲不肯收錄我呢?到盡頭它在等啥子?在仔細查看啥子呢?我自個兒的想法是:

第1、baidu對新站必須要仔細查看時期,無論你是啥子內部實質意義,都不收錄,不過蛛蛛跟平常一樣過訪,等過了這段仔細查看期後,立刻便會放手大乾了;

第二、就是網站原創的內部實質意義比較少,這個想法有些錯誤,由於趣飛商人網( )除開航空資訊頻帶外,特別降低機票頁面是原創內部實質意義來的,首頁也是,為何一著手就爬了首頁,卻不收錄呢?有些想不通,只能用第1個想法來詮釋;

第三、聲明一下子,我的域名是新注冊的,擯除曾經被罰記錄,我的服務器運用的是獨立ip,擯除多個站點運用同一ip遭受牽扯的有可能性。

所以,講到最終,難不成實在像網友說的要等15天?大家並肩研究討論一下子,期望能力的老鳥剖析一下子,或給點提議,極其衷心感謝!偶是新鳥,偶也接著仔細查看,接著分享,謝謝各位支持!