TF-IDF：傳統IR的有關排序技術（二）

　　既是是二，就是順著上一篇文章《TF-IDF：傳統IR的有關排序技術》寫下來的。所以，有興致的同學請先seo看完第1篇文章再來接著。

　　好，我們接著著手二。

　　關於詞的出現次數，只要你的分詞工具夠牛逼，就美好了解和成功實現。關於反文檔頻率，各位親們，看見特殊情況不會剛開始的時候感受很牛叉，而後細想會很有迷惑?

　　逆文檔頻率(idf)=log(文檔總額/裡面含有網站關鍵詞的文檔數目)

　　對，迷惑就在怎麼取得文檔總額與裡面含有網站關鍵詞的文檔數目上。

　　在搜索引擎網站上，可以有一個不賴的代替形式，下邊聽我細細道來。

　　每篇文章每個網頁幾乎都包括的這個字，嗯，你想到達吧。在搜索引擎網站中搜這個字，出來的最後結果數目可以了解為全部的文檔數目，而後再搜你的目的詞即為裡面含有這個詞的文檔數目，這一數值也就獲得理解決，下邊是我弄的一個例子：

　　好了，有了這些個數值，我們接下來看看能夠做些啥子出來。

　　將網站中每個網頁施行分詞，去掉語氣助詞停頓詞在這以後依照tf-idf值從大到小施行排序。

　　網頁A={a1，b1，c1，d1，e1z1}

　　網頁B={a1，b2，c1，d5，e2z6}

　　網頁C={a2，b1，c2，d1，e2z2}

　　顯然從{a1，b1，c1，d1，e1z1}中就可以理解到網頁A所表現的意思，B、C亦然。

　　假如經過一個辦法將A、B、C中的詞施行比對，那豈不是就可以算出來，你想對了，頁面之間的相仿程度。

　　這個辦法，就是餘弦值。具徒手體操作，如下所述：

　　我們首先從A、B、C入選出前N個可以表現頁面正題的詞，組成一個聚齊。

　　{a1，c1，d1，e1，b2，d5，e2，a2，b1，c2}

　　而後計算A、B、C頁面針對這個聚齊中每個詞的詞的出現次數(如有不可缺少，請運用相對詞的出現次數)，組成對應的矢量。

　　A=[2,1,3,5,0,0,0,0,1,0]

　　B=[]

　　C=[]

　　請記取這個高中時就學到的公式。

　　OK，通過此公式的計算，不不過頁面之間的相仿度，一樣一個頁面最有關的引薦文章也即可由此萌生。

　　有興致的同學們，請嘗試一下子吧。

　　過載請注明鏈接地址。

The Blog