既是是二,就是順著上一篇文章《TF-IDF:傳統IR的有關排序技術》寫下來的。所以,有興致的同學請先seo看完第1篇文章再來接著。
好,我們接著著手二。
關於詞的出現次數,只要你的分詞工具夠牛逼,就美好了解和成功實現。關於反文檔頻率,各位親們,看見特殊情況不會剛開始的時候感受很牛叉,而後細想會很有迷惑?
逆文檔頻率(idf)=log(文檔總額/裡面含有網站關鍵詞的文檔數目)
對,迷惑就在怎麼取得文檔總額與裡面含有網站關鍵詞的文檔數目上。
在搜索引擎網站上,可以有一個不賴的代替形式,下邊聽我細細道來。
每篇文章每個網頁幾乎都包括的這個字,嗯,你想到達吧。在搜索引擎網站中搜這個字,出來的最後結果數目可以了解為全部的文檔數目,而後再搜你的目的詞即為裡面含有這個詞的文檔數目,這一數值也就獲得理解決,下邊是我弄的一個例子:
好了,有了這些個數值,我們接下來看看能夠做些啥子出來。
將網站中每個網頁施行分詞,去掉語氣助詞停頓詞在這以後依照tf-idf值從大到小施行排序。
網頁A={a1,b1,c1,d1,e1z1}
網頁B={a1,b2,c1,d5,e2z6}
網頁C={a2,b1,c2,d1,e2z2}
顯然從{a1,b1,c1,d1,e1z1}中就可以理解到網頁A所表現的意思,B、C亦然。
假如經過一個辦法將A、B、C中的詞施行比對,那豈不是就可以算出來,你想對了,頁面之間的相仿程度。
這個辦法,就是餘弦值。具徒手體操作,如下所述:
我們首先從A、B、C入選出前N個可以表現頁面正題的詞,組成一個聚齊。
{a1,c1,d1,e1,b2,d5,e2,a2,b1,c2}
而後計算A、B、C頁面針對這個聚齊中每個詞的詞的出現次數(如有不可缺少,請運用相對詞的出現次數),組成對應的矢量。
A=[2,1,3,5,0,0,0,0,1,0]
B=[]
C=[]
請記取這個高中時就學到的公式。
OK,通過此公式的計算,不不過頁面之間的相仿度,一樣一個頁面最有關的引薦文章也即可由此萌生。
有興致的同學們,請嘗試一下子吧。
過載請注明鏈接地址。