基礎教程搜索引擎優化基礎之爬蟲程序篇

《網絡營銷教程SEO 》，中國站長站(chinaz.com)獨傢在線發佈。

如有轉載或作他用，敬請聯系該書權益人張棟偉。

一、什麼是搜索引擎爬蟲程序

網絡爬蟲(又被稱為網頁蜘蛛，網絡機器人，更經常的稱為網頁追逐者)，是一種按照一定的規則，自動的抓取萬維網信息的程序或者腳本。另外一些不常使用的名字還有螞蟻，自動索引，模擬程序或者蠕蟲。

這些處理被稱為網絡抓取或者蜘蛛爬行。很多站點，尤其是搜索引擎，都使用爬蟲提供最新的數據，它主要用於提供它訪問過頁面的一個副本，然後，搜索引擎就可以對得到的頁面進行索引，以提供快速的訪問。蜘蛛也可以在web上用來自動執行一些任務，例如檢查鏈接，確認html代碼;也可以用來抓取網頁上某種特定類型信息，例如抓取電子郵件地址(通常用於垃圾郵件)。

一個網絡蜘蛛就是一種機器人，或者軟件代理。大體上，它從一組要訪問的URL鏈接開始，可以稱這些URL為種子。爬蟲訪問這些鏈接，它辨認出這些頁面的所有超鏈接，然後添加到這個URL列表，可以稱作檢索前沿。這些URL按照一定的策略反復訪問。

二、爬蟲程序的種類以及分辨

搜索引擎派出他們的爬蟲程序去訪問、索引網站內容，但是由於搜索引擎派爬蟲程序來訪會在一定程度上影響網站性能。在你的服務器日志文件中，可見每次訪問的路徑和相應的 IP 地址，如果是爬蟲程序來訪，則user-agent 會顯示 Googlebot 或MSNBot 等搜索引擎爬蟲程序名稱，每個搜索引擎都有自己的user-agent。

三、國內主要的爬蟲程序

百度 baidu.com-Baiduspider

/search/spider.htm

谷歌 google.com-Googlebot

/bot.html

雅虎 yahoo.com-Yahoo

.cn/help.html

有道 yodao.com-YodaoBot

/help/webmaster/spider/

搜搜 soso.com-Sosospider/Sosoimagespider

/webspider.htm

/soso-image-spider.htm

搜狗 sogou.com-sogou

/docs/help/webmasters.htm

微軟 msn.com-msnbot

/msnbot.htm

The Blog

SEO諮詢: (852) 27208908