百度蜘蛛是如何收錄一個網站的|搜索引擎工作全過程揭秘

　　搜索引擎工作過程非常復雜，今天和大傢分享一下我所瞭解的百度蜘蛛是怎麼實現網頁收錄的。

　　搜索引擎工作大致可以分為四個過程。

　　1、蜘蛛爬行抓取。

　　2、信息過濾。

　　3、建立網頁關鍵詞索引。

　　4、用戶搜索輸出結果。

　　蜘蛛爬行抓取

　　當百度蜘蛛來到一個頁面時，它會跟蹤頁面上的鏈接，從這個頁面爬行到下一個頁面，就好像一個遞歸過程，這樣常年累月，不止疲倦的工作。比如蜘蛛來到瞭我的博客首頁.cn/netseoer，它會先讀取根目錄下的robots.txt文件，如果沒有禁止搜索引擎抓取，那麼蜘蛛就開始針對網頁上的鏈接，進行逐一跟蹤爬行。比如我的置頂文章SEO概述|什麼是SEO SEO到底是幹嘛的，引擎就會多進程式的來到這篇文章所在的網頁抓取信息，如此循壞，沒有終結。

　　信息過濾

　　為瞭避免重復爬行和抓取網址，搜索引擎會有一個記錄已爬行和未被爬行的地址庫，如果你有一個新網站時，你可以去百度官網提交網站的網址，引擎就會記錄它，並把它歸類到未爬行的網址，然後蜘蛛就會根據這個表格，從數據庫中提取URL，訪問並抓取頁面。

　　蜘蛛並不會收錄所有的頁面，它要經過嚴格檢測。當蜘蛛在爬行和抓取一個網頁的內容時，會進行一定程度的復制內容檢測，如果網頁所在的網站權重低，而且大部分文章都是抄襲來的話，蜘蛛就很可能不喜歡你的網站瞭，不在繼續爬行，也就不收錄你的網站。

　　建立網頁關鍵詞索引

　　當蜘蛛抓取瞭一個頁面之後，首先會對頁面文字內容進行分析。通過分詞技術，將網頁的內容簡化到關鍵詞，並把關鍵詞和對應的網址制成表格建立索引。

　　索引又有正向索引和反向索引，正向索引是把網頁內容對應的關鍵詞，反向是關鍵詞對應的網頁信息。

　　輸出結果

　　當用戶搜索瞭某個關鍵詞之後，就會通過前面建立的索引表進行關鍵詞匹配，通過反向索引表找到關鍵詞對應的頁面，通過引擎對網頁綜合評分計算以後，根據網頁的評分來決定網頁的先後順序排名。那蜘蛛是如何對網頁進行綜合評分的呢?這裡我們不多做分析，歡迎關註我的博客，在今後的文章裡我會為大傢分析揭秘搜索引擎的更多秘密。

The Blog

SEO諮詢: (852) 27208908