搜索引擎抓取和收錄頁面的過程

  搜索引擎對網頁的收錄是一個復雜的過程,簡單來說,收錄過程可以分為:抓取、過濾、建立索引和輸出結果。下面和大傢簡單說一下這幾個步驟,讓你可以清楚你的網頁從你發佈之後是如何被搜索引擎收錄並獲得相關排名的。

  

  1、抓取

  網站的頁面有沒有被搜索引擎收錄,首先要看一下網站的蜘蛛訪問日志,看一下蜘蛛有沒有來,如果蜘蛛都沒有抓取,那是不可能被收錄的。蜘蛛訪問網站的日志可以從網站的IIS日志裡面看到,如果搜索引擎蜘蛛沒有來呢?那麼就主動向搜索引擎提交,搜索引擎會派出蜘蛛來抓取網站,這樣網站才有可能被盡快收錄。

  如果你不會分析網站的日志也沒有關系,這裡推薦愛站SEO工具包,將網站的日志導入到這個工具之後,就能看到日志的分析,你能從中得到很到信息。

  廣度優先抓取:廣度優先抓取是按照網站的樹形結構,對一個的層進行的抓取,如果此層沒有抓取完成,蜘蛛不會進行下一層的搜索。(關於網站的樹形結構,會在後續的日志中進行說明,在沒有發佈文章之後,在此會添加連接)

  深度優先抓取:深度優先抓取是按照網站的樹形結構。按照一個連接,一直抓取下去,知道這一個連接沒有再往下的鏈接為止,深度優先抓取又叫縱向抓取。

  (註意:廣度優先抓取,適用於所有情況下的搜索,但是深度優先抓取不一定能適用於所有情況。因為一個有解的問題樹可能含有無窮分枝,深度優先抓取如果誤入無窮分枝(即深度無限),則不可能找到目標結束點。所以,深度優先抓取策略很多時候是不會被使用的,廣度優先的抓取更加的保險。)

  廣度優先抓取適用范圍:在未知樹深度情況下,用這種算法很保險和安全。在樹體系相對小不龐大的時候,廣度優先也會更好些。

  深度優先抓取適用范圍:剛才說瞭深度優先抓取有自己的缺陷,但是並不代表深度優先抓取沒有自己的價值。在樹型結構深度已知情況下,並且樹體系相當龐大時,深度優先搜索往往會比廣度優先搜索優秀。

  2、過濾

  網站的頁面被抓取瞭並不代表一定會被收錄。蜘蛛來抓取瞭之後,會把數據帶回去,放到臨時的數據庫中,再進行過濾,過濾掉一些垃圾的內容或者是低質量的內容。

  你頁面的信息如果是采集,在互聯網上有大量的相同信息,搜索引擎就很有可能不為你的網頁建立索引。有時候我們自己寫的文章也不會被收錄,因為原創的不一定就是高質量的。關於文章質量的高低,我會在以後的文章中單獨拿出一篇來和大傢詳細討論。

  過濾這一過程就是一個去掉糟粕的過程,如果你的網站的頁面順利通過瞭過濾這一過程,說明頁面的內容達到瞭搜索引擎設定的標準,頁面會就會進入建立索引和輸出結果這一步。

  3、建立索引與輸出結果

  這裡,我們把建立索引和輸出結果合在一起進行說明。

  通過一系列的過程之後,符合收錄的頁面之後會建立索引,建立索引之後就是輸出結果,也就是我們在搜索關鍵詞後,搜索引擎展示給我們的結果。

  當用戶在搜索關鍵詞時搜索引擎就會輸出結果,輸出的結果是有順序排列的。這些結果排序是根據一系列復雜的算法來排定的。比如:頁面的外鏈,頁面與關鍵詞的匹配度,頁面的多媒體屬性等。

  在輸出的結果中,還有一些結果是通過抓取之後直接可以輸出的,沒有經過中間復雜的過濾和建立索引等過程。什麼樣的內容和什麼樣的情況下才會發生的呢?那就是具有很強的時效性的內容,比如新聞類的。比如今天發生瞭一件特大事件,各大門戶和新聞源快速發出瞭關於事件的新聞,搜索引擎會迅速對重大新聞事件作出反應,快速收錄相關的內容。

  百度對於新聞的抓取速度是很快的,對重大事件的反應也比較及時。但是這裡還有一個問題就是,這些發佈的新聞如果有低質量的頁面會怎麼辦?搜索引擎會在輸出結果之後,仍然對這一部分新聞內容進行過濾,如果頁面內容與新聞標題不符,質量過低,那麼低質量的頁面還是會被搜索引擎過濾掉。

  在輸出結果的時候,搜索引擎會多多少少會對搜索結果進行人工幹預,其中以百度為最嚴重,在百度很多關鍵詞的自然搜索結果中被加入瞭百度太多自傢的產品,而且很多是沒有考慮用戶體驗的,這也是百度被大傢詬病的原因之一,有興趣的朋友可以百度一個詞看一下搜索結果,是不是百度自傢的產品占據瞭太多的首頁位置。

  我是劉旭,我的微信公眾平臺:a1719752001,希望能和大傢多多交流。