《網絡營銷教程—SEO》 第二章搜索引擎

《網絡營銷教程SEO 》,中國站長站(chinaz.com)獨傢在線發佈。

如有轉載或作他用,敬請聯系該書權益人張棟偉。

第一節 搜索引擎的基本工作機制

大型互聯網搜索引擎的數據中心一般運行數千臺甚至數十萬臺計算機,而且每天向計算機集群裡添加數十臺機器,以保持與網絡發展的同步。搜集機器自動搜集網頁信息,平均速度每秒數十個網頁,檢索機器則提供容錯的可縮放的體系架構以應對每天數千萬甚至數億的用戶查詢請求。企業搜索引擎可根據不同的應用規模,從單臺計算機到計算機集群都可以進行部署。

搜索引擎一般的工作過程是:首先對互聯網上的網頁進行搜集,然後對搜集來的網頁進行預處理,建立網頁索引庫,實時響應用戶的查詢請求,並對查找到的結果按某種規則進行排序後返回給用戶。搜索引擎的重要功能是能夠對互聯網上的文本信息提供全文檢索。

搜索引擎的工作流程

搜索引擎通過客戶端程序接收來自用戶的檢索請求,現在最常見的客戶端程序就是瀏覽器,實際上它也可以是一個用戶開發的簡單得多的網絡應用程序。用戶輸入的檢索請求一般是關鍵詞或者是用邏輯符號連接的多個關鍵詞,搜索服務器根據系統關鍵詞字典,把搜索關鍵詞轉化為wordID,然後在標引庫(倒排文件)中得到docID列表,對docID列表中的對象進行掃描並與wordID進行匹配,提取滿足條件的網頁,然後計算網頁與關鍵詞的相關度,並根據相關度的數值將前K篇結果(不同的搜索引擎每頁的搜索結果數不同)返回給用戶,其處理流程如圖1所示。

一、搜集器

搜索引擎通過一種程序robot(又稱spider),搜集器的功能是在互聯網中漫遊,發現並搜集信息,它搜集的信息類型多種多樣,包括HTML頁面、XML文檔、Newsgroup文章、FTP文件、字處理文檔、多媒體信息等。搜索器是一個計算機程序,其實現常常采用分佈式和並行處理技術,以提高信息發現和更新的效率。商業搜索引擎的搜集器每天可以搜集幾百萬甚至更多的網頁。搜索器一般要不停地運行,要盡可能多、盡可能快地搜集互聯網上的各種類型的新信息。因為互聯網上的信息更新很快,所以還要定期更新已經搜集過的舊信息,以避免死鏈接和無效鏈接。另外,因為Web信息是動態變化的,因此搜集器、分析器和索引器要定期更新數據庫,更新周期通常約為幾周甚至幾個月。索引數據庫越大,更新也越困難。

互聯網上的信息太多,即使功能強大的搜集器也不可能搜集互聯網上的全部信息。因此,搜集器采用一定的搜索策略對互聯網進行遍歷並下載文檔,例如,一般采用以廣度優先搜索策略為主、線性搜索策略為輔的搜索策略。

在搜集器實現時,系統中維護一個超鏈隊列,或者堆棧,其中包含一些起始URL(

理解成像DMOZ、Yahoo目錄Google sitemap等),搜集器從這些URL出發,下載相應的頁面,並從中抽取出新的超鏈加入到隊列或者堆棧中,上述過程不斷重復隊列直到堆棧為空。為提高效率,搜索引擎將Web空間按照域名、IP地址或國傢域名進行劃分,使用多個搜集器並行工作,讓每個搜索器負責一個子空間的搜索。為瞭便於將來擴展服務,搜集器應能改變搜索范圍。

1、線性搜集策略

線形搜索策略的基本思想是從一個起始的IP地址出發,按IP地址遞增的方式搜索後續的每一個IP地址中的信息,完全不考慮各站點的HTML文件中指向其他Web站點的超鏈地址。此策略不適用於大規模的搜索(主要原因在於IP可能是動態的),但可以用於小范圍的全面搜索,利用此種策略的搜集器可以發現被引用較少或者還沒有被其他HTML文件引用的新HTML文件信息源。

2、深度優先搜集策略

深度優先搜集策略是早期開發搜集器使用較多的一種方法,它的目的是要達到被搜索結構的葉結點。深度優先搜索順著HTML文件上的超鏈走到不能再深入為止,然後返回到上一個接點的HTML文件,再繼續選擇該HTML文件中的其他超鏈。當不再有其他超鏈可選擇時,說明搜索已經結束。深度優先搜索適宜遍歷一個指定的站點或者深層嵌套的HTML文件集,但對於大規模的搜索,由於Web結構相當深,也許永遠也出不來瞭

3、廣度優先搜集策略

廣度優先搜集策略是先搜索同一層中的內容,然後再繼續搜索下一層。假如一個HTML文件中有三個超鏈,選擇其中之一並處理相應的HTML文件(註意:這裡的處理文件指的是對文件內容進行檢索,文件上的其他超鏈接先不作處理),然後返回並選擇剛才第一個網頁的第二個超鏈,處理相應的HTML文件,再返回。一旦同一層上的所有超鏈都已被處理過,就可以開始在剛才處理過的HTML文件中搜索其餘的超鏈。(廣度鏈接的定義)

這樣保證瞭對淺層的首先處理,當遇到一個無窮盡的深層分支時,也就不會再陷進去。寬度優先搜集策略容易實現並被廣泛采用,但是需要花費比較長的時間才能到達深層的HTML文件

4、收錄搜集策略

有些網頁可以通過用戶提交的方式進行搜集,例如某些商業網站向搜索引擎發出收錄申請,搜集器就可以定向搜集提交申請網站的網頁信息並加入到搜索引擎的索引數據庫中。

更多精彩點擊下一頁