TF-IDF:傳統IR的有關排序技術(二)

  既是是二,就是順著上一篇文章《TF-IDF:傳統IR的有關排序技術》寫下來的。所以,有興致的同學請先seo看完第1篇文章再來接著。

  好,我們接著著手二。

  關於詞的出現次數,只要你的分詞工具夠牛逼,就美好了解和成功實現。關於反文檔頻率,各位親們,看見特殊情況不會剛開始的時候感受很牛叉,而後細想會很有迷惑?

  逆文檔頻率(idf)=log(文檔總額/裡面含有網站關鍵詞的文檔數目)

  對,迷惑就在怎麼取得文檔總額與裡面含有網站關鍵詞的文檔數目上。

  在搜索引擎網站上,可以有一個不賴的代替形式,下邊聽我細細道來。

  每篇文章每個網頁幾乎都包括的這個字,嗯,你想到達吧。在搜索引擎網站中搜這個字,出來的最後結果數目可以了解為全部的文檔數目,而後再搜你的目的詞即為裡面含有這個詞的文檔數目,這一數值也就獲得理解決,下邊是我弄的一個例子:

  


  好了,有了這些個數值,我們接下來看看能夠做些啥子出來。

  將網站中每個網頁施行分詞,去掉語氣助詞停頓詞在這以後依照tf-idf值從大到小施行排序。

  網頁A={a1,b1,c1,d1,e1z1}

  網頁B={a1,b2,c1,d5,e2z6}

  網頁C={a2,b1,c2,d1,e2z2}

  

  顯然從{a1,b1,c1,d1,e1z1}中就可以理解到網頁A所表現的意思,B、C亦然。

  假如經過一個辦法將A、B、C中的詞施行比對,那豈不是就可以算出來,你想對了,頁面之間的相仿程度。

  這個辦法,就是餘弦值。具徒手體操作,如下所述:

  我們首先從A、B、C入選出前N個可以表現頁面正題的詞,組成一個聚齊。

  {a1,c1,d1,e1,b2,d5,e2,a2,b1,c2}

  而後計算A、B、C頁面針對這個聚齊中每個詞的詞的出現次數(如有不可缺少,請運用相對詞的出現次數),組成對應的矢量。

  A=[2,1,3,5,0,0,0,0,1,0]

  B=[]

  C=[]

  請記取這個高中時就學到的公式。

  


  OK,通過此公式的計算,不不過頁面之間的相仿度,一樣一個頁面最有關的引薦文章也即可由此萌生。

  有興致的同學們,請嘗試一下子吧。

  過載請注明鏈接地址。