解說TF-IDF算法在SEO優化中的應用

  TF-idf算法實際上是一種用戶資訊檢索與資訊勘探的常用加權技術,每常被SEOER們應用到,而眾多人也許不太曉得,實際上最直觀的理解就是網站網站關鍵詞疏密程度。

  直接切入正題,TF-idf算法到盡頭是怎麼樣計算的:

  公式:

  TF:詞的出現次數

  IDF:逆文本頻率指數

  TF-IDF=TF*IDF

  我們舉例解釋明白,TF詞的出現次數的意思,是指一個詞顯露出來在頁面中的回數,假如一篇文章的總詞和詞組數是200,而網站優化這個詞顯露出來了4次,那末這個詞的出現次數TF=4/200,也就是0.02。

  而IDF也就是很文件頻率,指這個詞在若乾頁面顯露出來過統計為N,文件總額統計為M,那末IDF=lg(M/N)。如果網站優化在2000個頁面顯露出來,總文件數為1億,那末文件頻率IDF=lg(100000000/2000)=4.69897,那末計算最終的TF-IDF=0.02*4.69897=0.0939794。

  這只是一個判斷一個頁面的有關度的問題,而在SEO網站優化中,並不僅是判斷TF-IDF的值加分,我們需求一個辨別度高的詞來為頁面加分。例如:搜索引擎網站收錄一萬億個頁面,應當說每個頁面都會有的、是、中、地、得等等詞,這些個高頻詞也叫噪音詞或休止詞,搜索引擎網站會去除這些個詞,所以這些個詞的加分權重實際上應當是0。計算公式:TF-IDF=log(1萬億/一萬億)=log1=0。

  實際上在搜索引擎網站檢索中,計算權重的時刻,會依據每個詞分詞來計算,例如:SEO網站優化的技法這個詞。

  如果:SEO頁面檢索數的所在位置2000萬,網站優化的檢索數為1000萬,技法的檢索數為50000萬

  搜索引擎網站引得總額如果為100億。

  SEO在這個網站中頁面(頁面總詞數400)顯露出來8次,網站優化顯露出來10次,技法顯露出來16次。

  那末各自的詞的出現次數

  TF(SEO)=8/400=0.02,

  TF(網站優化)=10/400=0.025

  TF(技法)=20/400=0.04

  TF(的)=上頭已近提到,的歸屬高頻休止詞,權重為0。

  那末搜索SEO網站優化的技法這個頁面的有關度為:TF(總)=0.02+0.025+0.05=0.095。

  而IDF(SEO)=LOG(10000000000/20000000)=2.69897

  IDF(網站優化)= LOG(10000000000/10000000)=3

  IDF(技法)=log(10000000000/100000000)=1.69897

  這樣算下來在這以後,每個詞為搜索SEO網站優化的技法為頁面的權重和有關度貢獻的值作別為:

  Tf-idf(seo)=0.02*2.69897=0.0539794

  Tf-dif(網站優化)=0.025*3=0.075

  Tf-idf(技法)=0.04*1.69897=0.0679588

  由此可以看出,固然技法顯露出來的頻率更高,但辨別度沒有SEO和網站優化高,所以為頁面的權重貢獻度並不是太大。

  一個詞的預先推測有經驗也就是辨別度越高,那末這個詞的權重越大,與之相反則越小,看見網站優化有可能你就已經基本理解這個頁面要講啥子,不過看見技法,你有可能還不是太清楚頁面的正題。

  當然這支持搜索引擎網站的算法的一個點,我們還要接合標簽來成功實現權重的提高,例如H標簽,而主網站關鍵詞周邊的詞也會加分,這處周邊是指在一個標簽內的例如:SEO網站優化的技法主要是一點搜索引擎網站優化思考的線索的紹介

  Design by