網絡蜘蛛:深度優先還是廣度優先

網絡蜘蛛 學名Spider,又叫網絡爬蟲! 關於網絡蜘蛛的概述這裡就不多講瞭,今天我主要想說的是關於蜘蛛的爬行設計的方式與方法。

我們可以分為2種:

那麼什麼是深度優先? 什麼是廣度優先?有什麼用? 上海SEO (SWJ) 下面為大傢講解!本人學知淺薄隻會用通俗的話與道理與大傢分析,如有錯誤請及時聯系我 所以還請大傢多多見諒包含!

一種是深度優先策略,一種是廣度優先策略! 以下我們就圍繞這2點進行分析SWJ非常歡迎大傢一起交流、學習與探討!

深度優先顧名思義就是讓網絡蜘蛛盡量的在抓取網頁時往網頁更深層次的挖掘進去 講究的是深度!也泛指: 網絡蜘蛛將會從起始頁開始,一個鏈接一個鏈接跟蹤下去,處理完這條線路之後再轉入下一個起始頁,繼續跟蹤鏈接!

以下我發張圖 大傢看下: (下面這張是 簡單化的網頁連接模型圖 其中A為起點 也就是蜘蛛索引的起點!)

總共分瞭5條路徑 供蜘蛛爬行! 講究的是深度!

(下面這張是 經過優化的網頁連接模型圖! 也就是改進過的蜘蛛深度爬行策略圖!)

根據以上2個表格 我們可以得出以下結論:

圖1:路徑1 ==> A –> B –> E –> H 路徑2 ==> A –> B –> E –> i

路徑3 ==> A –> C 路徑4 ==> A –> D –> F –> K –> L

路徑5 ==> A –> D –> G –> K –> L

經過優化後

圖2: (圖片已經幫大傢標上方向瞭!)

路徑1 ==> A –> B –> E –> H 路徑2 ==> i

路徑3 ==> C 路徑4 ==> D –> F –> K –> L 路徑5 ==> G

深度爬行的優點是:網絡蜘蛛程序在設計的時候相對比較容易些把 其他我也沒發覺有什麼優點… 還有就是 蜘蛛的這種 勇往直前的精神 值得學習下! ^_^

深度爬行的缺點是:缺點麼多瞭一點點 呵呵! 每次爬行一層總要向蜘蛛老傢 數據庫訪問一下。問問老總有必要還要爬下一層嗎! 爬一層 問一次…. 引用一句高人的話 如果一個蜘蛛不管3721不斷往下爬 很可能迷路更有可能爬到國外的網站去.. 本來目標是中文網站 因為IP的問題 國外IP做瞭中文站的話…. 就容易去別人老傢瞭..這樣不僅增加瞭系統數據的復雜度更是增加的服務器的負擔 我想沒有一傢搜索公司會願意則樣的把,…除非腦子秀瞭 .. ^_^

接下來 我們介紹下普遍使用的 廣度優先策略 大傢休息下 喝杯咖啡 看的也累把 我寫的也累…. ^^

廣度優先在這裡的定義就是層爬行。什麼叫蜘蛛層爬行?就是一層一層的爬行 按照層的分佈與佈局 去索引處理與抓取網頁! 當然SE不會派一個蜘蛛去的 每層會派一個或多個蜘蛛Spider去抓取內容!

(下面這張就是 廣度優先策略圖(層爬行圖))

大傢一看就明白瞭把 聰明的人 下面的文章也不需要看瞭 答案已經告訴你瞭 ^ ^

根據以上表格 我們可以得出以下結論路徑圖:

路徑1 ==> A 路徑2 ==> B –> C –> D 路徑3 ==> E –> F –> G

路徑4 ==> H –> i –> K 路徑5 ==> L

廣度爬行的優點是:廣度相對深度 對數據抓取更容易控制些! 對服務器的負栽相應也明顯減輕瞭許多! 爬蟲的分佈式處理 使的速度明顯提高! 其他的想也可以想到拉!

廣度爬行的缺點是:暫時還沒觀察到有什麼缺點 呵呵 就好比 DIV+CSS樣式表(層佈局)一樣道理 你覺得有什麼缺點嗎?難道是新人不會這個問題? ^ ^不會不要緊 下載這本電子書去看看 <> 下載地址: /zl/seoqita/122.html

其他還有什麼建議意見 請多多指教與批評 上海SEO負責人SWJ 非常歡迎各位SEO愛好者 一起交流 學習與探討SEO優化技術,網站策劃也可以 ^_^ 聯系方式見首頁底部!

轉自上海SEO