最新發覺,百度蛛蛛(Baiduspider)是蠢材!近來發覺網站百度收錄的很慢,基本上是過幾天從新快照下首頁,其他頁面基本上不收錄!煩悶!真的煩悶!敞開網站IIS log,查了下百度蛛蛛,大驚!有重大發覺:百度蛛蛛真是個蠢材!
一、先看看百度蛛蛛是怎麼笨死的。以下是百度蛛蛛在我網站上的活動記錄。
1、2009-06-03 21:26:05 W3SVC962713505 218.60.130.19 GET /robots.txt – 80 – 123.125.64.15 Baiduspider+(+/search/spider.htm) 404 0 64 (注:404表明未找到robots.txt)
2、2009-06-03 21:26:49 W3SVC962713505 218.60.130.19 GET /index.asp – 80 – 123.125.64.15 Baiduspider+(+/search/spider.htm) 200 0 64 (注:200表明找到首頁文件index.asp)
由此可以看出,百度蛛蛛的活動,先到網站找robots.txt 這個文件,假如沒有則找到網站首頁index.asp,和百度到現在為止收錄的首頁相比較後發覺和原來沒變動,而後走了。和廣大站長同樣,誰沒想到自個兒被百度收錄的頁面時常的快照更新下?看來只有先完備robots.txt ,牽著百度蛛蛛到我站上滿天飛了。
二、書寫robots.txt ,帶百度到你站上四下裡逛逛。
robots.txt 這個文件務必寫。具體怎麼寫大家都懂吧?不會的話我再重復下
例1. 嚴禁全部搜索引擎網站過訪網站的不論什麼局部
User-agent: *
Disallow: /
例2. 准許全部的robot過訪
(還是也可以建一個具文件 /robots.txt)
User-agent: *
Disallow:
還是
User-agent: *
Allow: /
(桌子注:這個務必的,不要建具文件,那是百度在放煙。最好寫下邊一句。)
例3. 僅嚴禁Baiduspider過訪您的網站
User-agent: Baiduspider
Disallow: /
例4. 僅准許Baiduspider過訪您的網站
User-agent: Baiduspider
Disallow:
User-agent: *
Disallow: /
例5. 嚴禁spider過訪特別指定目次
在這個例子中,該網站有三個目次對搜索引擎網站的過訪做了限止,即robot不會過訪這三個目次。需求注意的是對每一個目次務必分開聲明,而不可以寫成 Disallow: /cgi-bin/ /tmp/。
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/
例6. 准許過訪特別指定目次中的局部url
User-agent: *
Allow: /cgi-bin/see
Allow: /tmp/hi
Allow: /~joe/look
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/
例7. 運用*限止過訪url
嚴禁過訪/cgi-bin/目次下的全部以.htm為後綴的URL(裡面含有細目錄)。
User-agent: *
Disallow: /cgi-bin/*.htm
例8. 運用$限止過訪url
僅准許過訪以.htm為後綴的URL。
User-agent: *
Allow: .htm$
Disallow: /
例9. 嚴禁過訪網站中全部的動態頁面
User-agent: *
Disallow: /*?*
例10. 嚴禁Baiduspider抓取網站上全部圖片
僅准許抓取網頁,嚴禁抓取不論什麼圖片。
User-agent: Baiduspider
Disallow: .jpg$
Disallow: .jpeg$
Disallow: .gif$
Disallow: .png$
Disallow: .bmp$
例11. 僅准許Baiduspider抓取網頁和.gif款式圖片
准許抓取網頁和gif款式圖片,不准許抓取其它款式圖片
User-agent: Baiduspider
Allow: .gif$
Disallow: .jpg$
Disallow: .jpeg$
Disallow: .png$
Disallow: .bmp$
例12. 僅嚴禁Baiduspider抓取.jpg款式圖片
User-agent: Baiduspider
Disallow: .jpg$
看看桌子自個兒寫的robots.txt,大家參照
復制代碼
User-agent: *
Disallow: /admin/
Disallow: /Soft/
Allow: /images/
Allow: /html/
Allow: .htm$
Allow: .php$
Allow: .asp$
Allow: .gif$
Allow: .jpg$
Allow: .jpeg$
Allow: .png$
Allow: .bmp$
Allow: /
詮釋:
1、准許各種搜索引擎網站引得
2、嚴禁引得/admin目次,這處是網站的後臺,當然嚴禁了
3、嚴禁/soft等關緊安全目次
4、准許過訪/images目次
5、准許過訪/html目次
6、准許過訪全部htm,php,asp,html文件
7、准許抓取gif,jpg,jpeg,png,bmp款式的圖片
8、准許抓取網站根目次下的文件。
好了,把你的 robots.txt傳到網站跟目次等級低的著百度蛛蛛再來吧。屆時有這個好向導會攜帶那一個蠢材到你站上滿眼走走的。本文筆者桌子,由MOFHOT外貿裙子成批出售網 尋找收集宣布,請HKSEO留個連署謝謝~發個文章也不由得易的。