瞭解谷歌搜索引擎工作原理 做好網站優化

核心提示:要創建一個符合或者適應搜索引擎的網站,我們需要先大致瞭解一下搜索引擎的工作原理。以下搜索引擎均以google為例。

Google使用兩個探測器來抓取網站上的內容:Freshbot和Deepbot。深度探測器(Deepbot)每月出擊一次,受訪內容在Google的主要索引之中。刷新探測器(Freshbot)是持續不斷地發現新的內容,例如新的網站、論壇、博客等。看起來,Google是發現瞭一個新的網頁,之後再頻繁地再訪,來看看是否還有什麼新的更新。如果有,這個新網站就會被加入到刷新探測器的名單中進行訪問。

刷新探測器取得的結果是匯總在一個單獨的數據庫裡。每一次刷新探測器進行新的一輪循環的時候都被重寫。刷新探測器和Google的主要索引是合在一起提供搜索結果的。

Google的操作模式

收集—->采編/索引—->反饋的工作程序。事實上,搜索引擎包括以下幾個元素。

抓取狀態:搜索引擎派出探測器到互聯網上不知疲倦地搜集網頁。

網頁倉庫:搜索來的網頁要集中在一個地方存儲,等候索引處理。

索引整理:將網頁分門別類,進行壓縮,等候進行索引編類,而未壓縮的原始網頁資料被刪除掉。

索引狀態:將壓縮後的網頁編目在不同的索引之下。

問詢狀態:將用戶問詢所用的白話轉換成搜索引擎讀的懂的計算機語言,來咨詢各個索引求得相關答案。

排名狀態:搜索引擎將相關答案根據一定的標準以列表的形式排列給用戶。搜索引擎認為最好的答案被推薦在首位,較次的排列隨後,以此類推。

SEO是逆向搜索推理

網站首先要知道搜索引擎是怎樣判定網站質量的,這個揣度搜索引擎的過程是逆向推理。這個逆向推理是從搜索引擎的搜索排名開始,去探索究竟搜索引擎會將一些網站排列在搜索結果的前列,為什麼一些網站連顯示的機會都沒有。最後推理出的結論是知道搜索引擎判定和排名網站存在著哪些普遍規律,進而知道網站的設計和推廣中哪些是應該做的,哪些是不應該做的。

Google的PageRank(PR)

PageRank並非是頁面等級,而是佩奇等級。因為這裡的Page指的是Google的創始人之一拉裡佩奇(Larry Page),從名字可以看出有的人天生就是為互聯網而存在。

公式

PR(A) = (1-d) + d(PR(Ti)/C(Ti)+…+PR(Tn)/C(Tn))

PR(A):網頁A的佩奇等級(PR)

PR(Ti):鏈接網頁A的網頁Ti的佩奇等級(PR)。i可以是0-n,n是鏈接的總數。這個鏈接可以是來自任何網站的導入鏈接

C(Ti):網頁Ti往其他網站鏈接的數量(導出鏈接)

d:阻尼系數,介於0-1之間,Google設為0.85。

可以看出,網頁A的PR是由鏈接它的其他網頁Ti所決定的。如果在網頁Ti中有一個鏈接指向網頁A,那麼A就得到瞭一個投票。但是如果網頁Ti中的導出鏈接如果越多,點擊指向A的可能性就越小。所以網頁Ti的PR隻需要用C(Ti)來加權平均。

當然,決定網站排名的不僅僅是PR值,還有其他的因素。但是PR在google判斷網站質量中起著很重要的作用。