百度站長工具之鏈接分析：如何定位網站的SEO問題？

站長之傢（Chinaz.com）註：網站鏈接分析，源於對Web結構中超鏈接的多維分析，是網站優化運營中不可缺少問題診斷方法。百度站長平臺也推出其官方的鏈接分析工具。那麼，我們該如何利用好百度站長工具的鏈接分析功能，來定位網站可能存在的SEO問題呢？

以下為來自百度站長社區斑竹響1亮2的3名4字的分享：

有一次在社區裡面看到有站長朋友提問，說百度站長工具的鏈接分析裡，怎麼出現瞭錨文本是@NULL@的數據，感到非常不明覺厲。

然後我就試著聯系瞭一些平時經常打交道的站長朋友，問瞭下他們是否關註過百度站長工具中的鏈接分析，是否定期進行過統一分析，當出現大量死鏈數據時，是否對問題進行瞭定位結果發現有很多站長朋友，在平時很少進行這樣的分析工作，所以當出現問題的時候，就感到不明覺厲，不由得大罵度娘坑爹。

實際上，度娘到底坑不坑爹我是不知道啦，不過我想說度娘隻是把問題反映出來，更多地還需要我們自己去定位問題並進行處理，才能確保網站不會因為該問題而受到較大程度的影響。

於是，我就有瞭制作本期專題的打算，專題地址：/thread-75492-1-1.html。

1、本文的主要內容有哪些呢？

（1）查找是否有黑鏈出現從日志分析，百度蜘蛛抓取瞭網站的哪些預期外的頁面，是否存在黑鏈。（這個可能要先賣個關子，因為這又是個大工程啦，本期專題會提到一些）

（2）百度站長工具外鏈分析查看是否有垃圾外鏈、黑鏈等，以及鏈向的站內什麼地方，如何處理。（本期裡面也有所涉及）

（3）百度站長工具鏈接分析三大死鏈（內鏈死鏈、鏈出死鏈、鏈入死鏈），批量下載數據，合並數據，excel操作，按邏輯分類，定位問題，處理問題。（定位和處理，材料不夠，因為好多已經處理過瞭，沒有材料瞭= =|||||）

（4）從分析這些數據，得到的與SEO效果相關的其他信息（垃圾搜索引擎、垃圾外鏈帶來的無用抓取，浪費資源配額，如何拒絕。）

（5）如何自動化地使用shell腳本，定位到被百度蜘蛛抓取到的死鏈，並進行復查，然後將確定為死鏈的URL進行自動化提交。（本期專題內容太多，留作下期專題用）

（6）分析工具介紹（firefox設置，插件，excel，windows命令提示符批處理）

2、本文中主要使用到的工具

（隻是結合例子中，如果有其他相似功能的工具，請結合自身習慣使用即可）

【瀏覽器】火狐（Firefox）瀏覽器，版本無所謂

【插件】：Launch Clipboard

功能：一鍵打開剪切板中存在的URL。（註意URL中隻能有英文數字標點，如果有中文可能無法被識別）。快捷鍵：alt + shift +K（先復制好單個或者多個URL）

設置：打開選項設置，選擇好下載文件自動保存的位置（我這裡選擇瞭桌面，你也可以單獨創建一個文件夾，好對批量下載的文件進行歸類）

【表格處理】：Microsoft Office 2013 Excel

【文本處理】：Notepad++

【批量處理】：Windows自帶命令提示符

一、我們可以先看一下外鏈分析。

分析外鏈數據的主要目的是，找出垃圾外鏈，主動去封堵垃圾外鏈可能對網站造成的惡劣影響。最終目標：

1、找到垃圾外鏈的域名，進行防盜鏈處理（針對來源為垃圾域名的，直接返回404狀態碼）；

2、處理站內可能存在問題的頁面。

這裡，我會重點講解第一點；第二點比較簡單，我會講解得比較粗略。

1、定位出垃圾域名。

圖註：可以看到這是一個明顯不正常的趨勢圖

我們可以下載外鏈數據，來進行初步分析。

圖註：下載得到的表格文件（csv逗號分隔符）

但是這樣一份原始數據，是很難進行分析的。因此我們需要按照一定邏輯對其進行分析就是按照【被鏈接的網頁url】進行分類。

首先，我們可以快速瀏覽一下，進行直觀判斷，這些頁面大部分是什麼頁面呢？

針對我們網站的情況來說，外鏈數據分為兩類，正常外鏈與垃圾外鏈。

而垃圾外鏈又分為兩種：站內搜索結果頁面（垃圾搜索詞）以及被黑客入侵植入的黑鏈（已經處理為死鏈）。

我們進行數據處理的目的有兩個：識別出哪些是正常外鏈，哪些是垃圾外鏈，並根據垃圾外鏈的相關數據，進行一些處理，保護好網站；並且需要使被垃圾鏈接指向的頁面，不被搜索引擎抓取（浪費抓取資源配額）以及被收錄/索引（保證網站詞庫不受污染，不為網站帶來形象與關鍵詞方面的負面影響）。

第一步，篩選出網站的搜索結果頁面

圖註：篩選數據、復制到新的sheet中，刪除原始sheet中的篩選數據，來分類數據

還有幾類搜索鏈接格式，都以相同方式進行處理。

然後把原始sheet中剩下的數據進行去重（空白行），得到剩餘的鏈接信息。

圖註：對剩餘數據進行簡單的去重處理。

然後，我們需要對黑鏈進行篩選。黑鏈的數據，一般需要先從網站日志中分析得到（這樣是最全面的，為瞭保證效率，會需要使用到shell腳本來自動運行，但是涉及篇幅過多，我將在以後的專題中進行講解）。

當然也可以對表格中【被鏈接的網頁url】這一列按照順序排序後，挨著分析得到（自己去打開，同時黑客會使用一些特殊手段，妨礙我們去識別真正的會被搜索引擎識別到的垃圾內容，最常見的情況就是，使用js跳轉。這樣我們通過瀏覽器訪問時，會看到完全不一樣的內容，而搜索引擎抓取時，則下載到瞭垃圾內容。）

這時，我們需要使用一款firefox插件【No Script】，旨在屏蔽網站上的js，看到與搜索引擎類似的內容。

圖註：屏蔽瀏覽器中java script的插件

另外還有一種不是很靠譜的甄選方法，在搜索引擎裡面去搜：【site:域名博彩】之類的關鍵詞，把不符合網站預期的關鍵詞拿去搜，就可以得到很多鏈接瞭。（這裡需要使用一些方法，把鏈接全都批量導出，在今後的專題中，我會繼續講解的）

篩選過程我就隻能省略啦，可以結合視頻看一看。

圖註：篩選出來的網站黑鏈

我們之所以要這麼辛苦地找出垃圾外鏈，目的就是要把這些垃圾外鏈的域名記錄下來，避免這些垃圾域名被黑客重復利用，拿去制作新的垃圾鏈接，從而在第一時間拒絕掉這些垃圾外鏈，使百度蜘蛛從垃圾外鏈訪問我們網站上內容時，無法獲取到任何信息（也就是返回404狀態碼，被識別成死鏈），久而久之，這些垃圾域名的權重就會越來越低（因為導出瞭死鏈，影響搜索引擎的正常抓取工作），這樣我們不僅保護瞭自己，也懲罰瞭敵人。

具體方法是，把垃圾頁面找出來從搜索結果頁面和黑鏈的兩個sheet中，把外鏈頁面整合到一起。如sheet3所示。

圖註：合並垃圾外鏈頁面

接下來的處理會使用到一款小工具，來快速獲取這些鏈接的主域名。

https:///getdomain.html

圖註：將鏈接復制到左邊紅框裡，點擊本地提取，就會出現在右側紅框

如此一來，我們就得到瞭這些垃圾外鏈頁面的主域名，我們隻需要在我們服務器上配置一下防盜鏈，禁止refer（來源）為這些域名的訪問（返回404http狀態碼）即可。

2、從站內對搜索結果頁面進行處理（黑鏈處理我保留在下一次專題，因為要大量結合linux的shell腳本）：

權重比較高的網站的站內搜索，一定要註意antispam（反垃圾）。如果不加以防范的話，一旦被黑客利用，那麼可能會造成大量搜索頁面被百度抓取，黑客利用高權重網站的資源，快速做好黃賭毒行業的關鍵詞排名。但是這對於我們網站來說，則是噩夢般的打擊。不作處理的話，可能會導致如下幾方面的問題：浪費大量的蜘蛛抓取配額，去抓取垃圾頁面；垃圾頁面被搜索引擎收錄，網站詞庫被黑客污染，使得網站的行業詞和品牌詞排名不理想；對網站形象造成損失等。

在進行這類反垃圾策略的時候，我們需要關註四個方面：站內用戶可以正常使用；不允許搜索引擎抓取這類頁面；拒絕垃圾外鏈的訪問；頁面上不得出現垃圾關鍵詞。

既然有瞭明確的目標，那麼相應的應對方案也就出來瞭，那就是：

A 限制來源，拒絕掉所有非站內來源的搜索

B 頁面上的TKD等關鍵位置，不對搜索詞進行調用

C 指定敏感詞庫過濾規則，將敏感詞全部替換為星號*（有一定技術開發要求）

D 在robots.txt聲明，不允許抓取

E 在頁面源代碼head區間添加meta robots信息，聲明該頁面不允許建立索引（noindex）

進行以上處理，可以解決掉大部分站內搜索頁面（不局限於該類頁面，甚至其他的頁面隻要不希望搜索引擎抓取以及建立索引的話，都可以這樣處理）容易出現的問題。

The Blog

SEO諮詢: (852) 27208908