利用TF-IDF詮釋『SEO診斷』名次現象

  TF-IDF算法已經被眾多專業的SEO辦公者所清楚知道,它是一種用於資訊檢索與資訊勘探的常用加權技術,使用到網頁剖析中就是對於網頁中的有關網站關鍵詞施行加權,剖析很多網頁中某個特別指定網站關鍵詞的有關網頁網站關鍵詞權值,並在最終的排序算法中給與科學的根據。

  首先看一看TF*IDF公式:TF*IDF值 = TF×IDF(TF乘以IDF) = 1+log TF(t,d) ×IDF(t) = 1+log TF(t,d) ×log(N / DF(t))。為何要剖析這個公式呢?由於一個網頁的TF-IDF值越大,網頁漢字本內部實質意義與引得詞越有關,其能夠在搜索引擎網站上取得的權值就越高,對於後期的網頁的排序能夠供給非常大的支持。

  TF*IDF中TF詞的出現次數(Term Frequency),表達詞目在某個文檔中顯露出來的頻率,而IDF反文檔頻率(Inverse Document Frequency)表達假如裡面含有詞目t的文檔個數越少,IDF越大,則解釋明白詞目t具備美好的門類區別有經驗,用公式表達IDF可以寫為:IDF(t) = log(N / DF(t))。DF(t)表達裡面含有有某個搜索詞(以t為代表)的文檔數,N表達互聯網的總網頁數。

  看這些個概念很難吃透,給大家舉一個例子,大家就能夠美好地清楚了。

  


  利用TF-IDF詮釋SEO診斷名次現象

例如SEO診斷這個網站關鍵詞的網頁排序,我們查名次前十中三個網站關於這個詞有關詞和詞組的一點詞的出現次數展出剖析:

  排在第二的是HKSEO的SEO診斷,它們的SEO和診斷的詞的出現次數作別是41和46,SEO診斷的詞的出現次數是20;

  排在第三的網站是長沙的一家企業,它們的SEO和診斷的詞的出現次數作別是12和4,SEO診斷的詞的出現次數是1;

  我的細嗅薔薇博客名次名次第十,網站中SEO詞的出現次數無上,達到84,診斷的詞的出現次數是7,SEO診斷的詞的出現次數是4。

  搜索檢查相關於SEO診斷的頁面約1,530,000個,SEO和診斷是百度最大限度約100,000,000個,取N=10000億。所以三個網頁三個seo網站關鍵詞的TF*IDF值做下邊的計算:

  1、先計算三個詞的IDF值:

  SEO:IDF= log(N / DF(t))= log(10000/1)=4

  診斷:IDF= log(N / DF(t))= log(10000/1)=4

  SEO診斷:IDF= log(N / DF(t))= log(10000/0.015)= 7-log15≈6

  2、計算三個詞的TF值:

  三站的網站關鍵詞SEO的TF值:

  長沙:TF= log(TF(t,d))= log12≈1.1

  HKSEO:TF= log(TF(t,d))= log41≈1.64

  細嗅薔薇:TF= log(TF(t,d))= log84≈1.92

  三站的網站關鍵詞診斷的TF值:

  長沙:TF= log(TF(t,d))= log4≈0.63

  HKSEO:TF= log(TF(t,d))= log46≈1.68

  細嗅薔薇:TF= log(TF(t,d))= log7≈0.84

  三站的網站關鍵詞SEO診斷的TF值:

  長沙:TF= log(TF(t,d))= log1=0

  HKSEO:TF= log(TF(t,d))= log20≈1.45

  細嗅薔薇:TF= log(TF(t,d))= log4≈0.63

  3、三個站三個詞的TF*IDF值為:

  從上頭的表格中我們可以清楚的看出,我的博客SEO的TF*IDF值無上,HKSEO站長網的診斷和SEO診斷TF*IDF值無上。

  假如天真從TF*IDF值計算出來的有關性來講,SEO診斷這個詞的名次HKSEO站長網的有關性是無上的,應當取得更好的名次,我的博客名次應當在兩者之間(昨天前一天的名次確實在兩者之間),長沙站應當在最終,不過和實際的最後結果看來是有一定的差距的。這解釋明白網站網頁名次的因素還有其它的一點比較關緊的因素,例如網站群體權重,單個網頁權重和品質,外部鏈接,和用戶的交互(即用戶體驗認識),這些個都是我們需求思索問題的。

  額外,同一個網站對比來看TF*IDF值,長沙站和我的細嗅薔薇博客要提高名次,對於網站關鍵詞SEO名次的要求就比較高,SEO名次起表決性效用,而HKSEO站長站中SEO診斷的名次起到表決性的效用,網站關鍵詞SEO名次對於其名次撩動影響要小。這一點兒有一定的依據,例如昨天前一天我的博客SEO診斷名次第三,當初SEO網站關鍵詞名次第十頁,如今掉到達23頁,名次就減退到第十,所以多使用TF*IDF研討能夠幫忙我們發覺眾多網站關鍵詞名次現象,並針對性的制定SEO優化策略。

  當然,這個計算都是基於理想狀況的,不過也能夠解釋明白一點SEO現象的萌生端由,只要我們能夠掌握TF*IDF算法的基本思想,而後使用到網站優化中,定然能夠更好地優化網站,例如我的博客,減低SEO這個詞對於網站名次的影響,有可能能夠更好地扼制網頁的網站關鍵詞SEO診斷的名次。