隱含語義索引原理及引申的思考

隱含語義索引原理,它是基於一個什麼樣的算法呢?它又有什麼作用呢?它對關鍵詞排名的哪個部分起著決定性的作用呢?前面我的一篇文章《從隱含語義索引淺談關鍵詞佈局》提到關鍵詞相關的問題,很多朋友想瞭解更多一點,下面就SEO研究中心的一節VIP課程和大傢分享吧!

1、隱含語義索引原理的作用

隱含語義索引原理主要是解決文章內容問題。包括下面幾個方面:

①、內容的重復性問題

②、關鍵詞的相關性問題

③、關鍵詞的密度問題

④、關鍵詞堆砌問題

⑤、文章原創性問題

2、關鍵詞密度問題

我們學習SEO以後經常在思考,搜索引擎是怎麼判斷我們的文章是否原創的呢?怎麼判斷我們一篇文章是質量高還是質量低的呢?怎麼樣能夠知道我的文章有沒有關鍵詞堆積?怎麼樣能夠知道我的文章中的關鍵詞密度。

這個隱含語義索引原理就是現在主流搜索引擎用的一個核心的索引原理。它是基於中文分詞原理來的。我們前面的課程中有詳細的講過中文分詞原理。

中文分詞原理就是說,搜索引擎如果要通過上千萬億個網頁去判斷某個關鍵詞的關鍵詞排名,並且計算它的排名的話,是非常非常困難的。不可能像現在這樣,在零點零幾秒就能夠計算出一個結果出來。漢語的詞匯量,一共隻有8萬條。通過語義索引,把上千萬億個網頁分割成瞭8萬條詞條上面,就使得計算變得非常的簡單瞭。使得計算從一個很復雜的、非常龐大的數字,變成一個計算機可以人為控制的數字瞭,僅僅隻有8萬條。

搜索引擎的蜘蛛把一個頁面裡的代碼、文字全都下載下來之後,它會進行分析。把這個頁面裡面所有的中文字詞整理出來,進行切割。這個切割的過程就是分詞,把頁面內容分成若幹個不可再分的詞。然後把一些過路詞去掉。什麼是過路詞呢?這個、那個、在、的等等等等,這些關鍵詞是沒有意義的詞。隻留下一些名詞、動詞、形容詞。

把一個頁面分解成這些詞以後,就開始統計每個詞出現的次數和頻率。這樣搜索引擎就知道瞭你的關鍵詞在頁面出現瞭幾次,也就算出瞭關鍵詞密度。

3、關鍵詞堆砌問題

搜索引擎知道瞭你的關鍵詞在頁面出現瞭幾次,也知道瞭跟它相關的詞又在頁面出現瞭幾次。比如你一個詞出現瞭100次,它的相關詞隻出現瞭2次,搜索引擎就知道你肯定是在堆砌關鍵詞,是在作弊。

所以說,有沒有關鍵詞堆砌,這是可以算出來的。而且不同的行業不同的詞,它們的比率是不一樣的。這就解決瞭關鍵詞堆砌的問題。

4、相關性關鍵詞問題

相關關鍵詞它的比率到底是多少呢?比如說SEO培訓,SEO出現的次數,和SEO培訓出現的次數,他們的比率是多少。再比如上海不銹鋼,上海出現的次數,和上海不銹鋼出現的次數,他們的比率又是多少。這個人傢是可以算出來的。

你在一篇不相關的文章插入一個關鍵詞。比如網站上面根本沒講SEO,你插一個SEO在裡面。這個時候SEO可能就會起反作用。因為它通過隱含索引原理,可以計算出來,你這個關鍵詞跟你這個頁面不相關。

5、原創性問題

搜索引擎能不能識別偽原創?它是可以識別的。因為通過相關語義索引原理,它知道每一個詞的比率。你把位置換一下,難道頻率就不一樣瞭嗎?頻率還是一樣的,各位!隻是說你增加一些詞還有減少一些詞,頻率會有一定量的變化,但是變化不會太大。換近義詞可以,但是近義詞隻有一個。而且換近義詞以後關鍵詞就不是那個詞瞭。幾篇文章組合也行,但是你這種文章還有可讀性嗎?沒有可讀性瞭。

有的人可能會問,老師既然如此,為什麼我偽原創的文章,還會收錄呢。怎麼解釋這個問題。隱含語義索引原理,搜索引擎大體的都是用這個來識別的,但是它不能100%識別。說白瞭,這是一個程序的計算問題。這個蜘蛛,他就是一個程序。但這是可以實現的技術問題。你要相信,總有一天,他可以做到接近100%識別的。你明白沒有?所以,你有時候別老想著去做這事。一旦有一天他接近90%瞭,我可以說,現在互聯網上大量做垃圾站的那些人,遲早都要完蛋。最後,絕對是用戶體驗最佳的那個網站得勝。認同嗎?搜索引擎的發展變化太快瞭,因為搜索引擎有的是錢,有世界上最好的工程師。給用戶帶來最佳體驗的網站以及網站內容,絕對會笑到最後,他一定是這樣的。

搜索引擎使用隱含語義索引原理,但是它需要程序去實現,這個過程是多久呢,應該在未來2~3年內,就可以接近90%瞭。90%是一個很猛的數字瞭,現在估計隻有40%-50%左右。

現在很多站長,已經越來越難瞭,收錄一直在浮動。而為什麼很多老站的收錄一直都很穩定呢?這到底是什麼原因造成的呢?這就是因為隱含語義索引原理的識別度越來越高瞭。很多長尾關鍵詞頁面,今天收錄,明天就刪瞭,是不是這樣子?

6、內容重復性問題

隱含語義索引原理,能夠讓大傢的網站,重復度高的,收錄越來越少。如果你是采集,以後你的收錄隻會越來越少。有兩個解決方案。

第一種,增加你的權重。

比如有兩個網站,我的權重比你高。你先發,我采集你的。因為我的權重高,蜘蛛先爬到我。或者先爬到你,但是沒有馬上收錄,然後爬到我,收錄瞭。百度會認為誰是原創?告訴大傢,如果我的權重高於你的。百度就會認為我的文章是原創。為什麼呢?因為目前為止,百度判斷原創還是主要依靠權重。除非你比我早發很多天。否則隻要你一發我就采集你,百度必然會認為我是原創。你肯定幹不過我。我一發就收錄瞭,而且排名很好。你隻能靠慢慢累計權重提升排名,沒別的辦法。

第二種,我們不去采集,我們做100%原創性的內容。

被高權重的網站采集也沒有關系。因為不可能永遠那麼湊巧,一發就被采集。而且假設你先把自己內容完全做好瞭的話,如果你是一個新站,請問誰會來采集你?隻有你更新很及時而且網站有排名,才會采集你。你認同嗎?如果你一開始把內頁全部做好,全部都是原創的。別人是無法采集你的。一開始是不采集,後來是采集也沒用。按照我說的一步一步提升權重。就像現在的SEOWHY,還有人去采集他嗎?有,但是基本上沒用瞭。

不建議做任何防采集的設置,會妨礙用戶體驗的。比如說你禁止用戶使用右鍵,或者一些防采集的代碼,都會影響你的收錄以及你的整個網站的優化。不能做任何防采集的東西。

7、隱含語義索引原理的引申思考

關於隱含語義索引原理,我們可以思考兩個問題。

1、保持頁面上關鍵詞的最新相關性。

不同的時期內,一個關鍵詞的相關關鍵詞是不同的。我們要不斷調整我們的頁面內容,使我們頁面上的關鍵詞保持最新的相關性。這樣搜索引擎就會始終認為我們這個網站是有價值的。

2、研究那些外部鏈接比較少,而關鍵字排名比較靠前的網頁。這些頁面,說明百度對他的內容質量是打瞭高分的。

最後總結一句話:做偽原創、采集是沒有前途的。

作者:青裝SEO研究中心