竹影清風:被忽略的SEO利器robots.txt

竹影清風做網站也有些年頭瞭,應各位站長朋友的要求今天跟各位分享一點我的點滴經驗。今天的話題重點是robots.txt。各位站長朋友可能比較少關註robots.txt,但善用robots.txt絕對對你的網站是有百益而無一害的。

聲明:此文僅適合新手,老鳥請優雅地飄過。

話題一:robots.txt是什麼?

這裡引用Baidu作出的回答,robots.txt是一個必須放在根目錄底下的純文本文件,文件名必須全部是小寫的字母即robots.txt,在這個文件中聲明該網站中不想被robot訪問的部分,這樣,該網站的部分或全部內容就可以不被搜索引擎收錄瞭,或者指定搜索引擎隻收錄指定的內容。

話題二:robots.txt具體如何使用?

作用1:SEO中引導搜索蜘蛛抓取網站地圖,更好地收錄網站頁面。

現在Google\ Yahoo等國外搜索引擎都已支持在robots.txt文件裡指明sitemap文件的鏈接,在蜘蛛訪問robots.txt時告知你網站地圖所在的位置,以利於蜘蛛更好地收錄你網站的頁面。使用語法是sitemap: /sitemap.xml(Google)或者是sitemap: /sitemap.txt(Yahoo)。其中地圖文件你可以使用網站地圖制作軟件生成,或者你自己編寫程序生成。

作用2:禁止所有搜索蜘蛛抓取你網站的所有內容或者是指定目錄。在建站實戰中有這麼幾種常見的具體情況:

第一種情況是禁止所有搜索蜘蛛抓取你網站的任何內容。

假如我的網站剛傳到服務器上或者虛擬主機上調試,但是由於網站頁面標題或者是關鍵詞等還沒有優化好,外面又有瞭網站的外鏈瞭,但是還不想讓搜索引擎收錄時,就可以禁止所有搜索引擎來收錄你的任何頁面。

在這裡我舉一個反面的例子,06我建瞭某個網站,使用瞭織夢的內容管理程序,第一次套用瞭一個模板,加瞭些內容就興奮地向各搜索引擎提交瞭,第二天就被搜索引擎收錄瞭,再過瞭幾天也放出瞭幾百篇內容,但是後來我又找瞭一套更漂亮清新的模板,改瞭下又重新生成瞭所有頁面,如此地改動瞭好幾次。由於各搜索的蜘蛛都是母的,網站頁面經常改動,特別是title等重要屬性的改動讓她很沒有安全感,對網站產生瞭嚴重的不信任,結果我的網站頁面過瞭一兩個月才恢復過來。所以各位站長在網站上線對搜索開放之前一定要找準瞭網站定位,並且在優化好瞭以後再向搜索引擎開放不遲。

又例如你的網站僅是你跟你戀人的戀愛傢園,僅僅是你們自娛自樂的,而不想被抓取的,又例如你的網站是公司內部用的網站,是全隱秘的內容,不需要對任何蜘蛛抓取的,又或者任何其他的具體情況要禁止任何搜索引擎抓取的。

禁止所有搜索引擎收錄網站任何頁面的語法為:

User-agent: *
Disallow: /

第二種情況是需要禁止所有搜索引擎抓取網站特定的一些目錄。

(1)網站某些目錄是程序目錄,完全沒有被抓取的必要,為瞭提高服務器性能,避免搜索抓取時消耗服務器資源,可以禁止所有搜索引擎抓取這些目錄。(2)網站部分目錄是一些會員信息或者是其實敏感,私密性的內容,禁止搜索引擎抓取的。(3)某些目錄下的內容全是采集未作任何修改的內容,這部分內容僅是為瞭豐富內容,但是並不想被搜索引擎收錄,這時就需要禁止搜索引擎抓取。(例如我以前做的一個網站,一部分是全原創的內容,用以被搜索抓取的。一部分內容是全采集而來僅為豐富網站內容,提高用戶體驗的,但是又不想讓搜索引擎收錄認為是垃圾信息而給網站降權,那麼這部分目錄我就要屏蔽搜索蜘蛛!)等等其他情況!

禁止所有搜索引擎抓取特定目錄或者特定頁面的語法例子為:

  User-agent: *
  Disallow: /plus/count.php
  Disallow: /include
  Disallow: /news/old

大傢有興趣的話,可以到竹影清風新上線的dianzhu2.com去查看下我的robots.txt,裡面有一些具體的例子說明。

作用3:禁止某蜘蛛抓取你網站的所有內容。

這裡有這麼幾種情況,(1)你曾嚴重被baidu降權過、鄙視過、羞辱過,又或者你是反百度聯盟的成員,從而要跟它決裂的,要禁止它抓取你網站的任何內容。(2)你的網站已經NB得跟淘寶似的瞭,要全面禁止百度收錄你的頁面。大傢可以查看下淘寶的robots.txt,淘寶因商業利益等因素已將baidu屏蔽掉,但是由於baiduspider是母的,見馬雲帥得跟個ET似的,還是厚著臉皮收錄瞭淘寶1060篇左右的內容。大傢可以在百度搜索欄裡輸入site:(taobao.com)驗證下。(3)其他任何想禁止某搜索引擎收錄你網站所有內容的情況。

禁止某指定搜索引擎抓取你網站任何內容的語法為:

  User-agent: baiduspider
  Disallow: /

作用4:僅允許指定的搜索蜘蛛抓取你網站的內容。

由於我們網站的流量主要來自幾大主要的搜索引擎,你不想國外的或者是國內的其他搜索蜘蛛、流氓蜘蛛 來服務器抓取你網站內容,從而消耗服務器資源,那這個時候,這個語法就起作用瞭。

僅允許指定的搜索蜘蛛抓取你網站的內容的語法為:

  User-agent: baiduspider
  Disallow:

  User-agent: *
  Disallow: /

其中User-agent: baiduspider Disallow: 可以將你允許的幾大搜索蜘蛛都列出來。在此特別需要提醒的是,必須正確書寫robots.txt,以免給網站帶來不必要的傷害。百度的蜘蛛:baiduspiderGoogle的蜘蛛: Googlebot騰訊Soso:SosospiderYahoo的蜘蛛:Yahoo SlurpMsn的蜘蛛:Msnbot

作用5:禁止所有搜索引擎抓取你網站全部或者特定目錄下的特定類型文件。

禁止所有搜索引擎僅允許抓取網頁,禁止抓取任何圖片。其語法為:

  User-agent: *
  Disallow: .jpg$
  Disallow: .jpeg$
  Disallow: .gif$
  Disallow: .png$
  Disallow: .bmp$

如果是僅禁止特定的搜索引擎,那麼按照上面介紹的方法,將通配符*改為特定的蜘蛛名稱就可以瞭。

作用6:禁止搜索引擎在搜索結果中顯示網頁快照,而隻對網頁建立索引。

其使用方法為:

百度支持通過設置網頁的meta,防止搜索引擎顯示網站的快照。方法如下:

要防止所有搜索引擎顯示您網站的快照,請將此元標記置入網頁的 <HEAD> 部分:<meta name=robots content=noarchive>要允許其他搜索引擎顯示快照,但僅防止百度顯示,請使用以下標記:<meta name=Baiduspider content=noarchive>註:此標記隻是禁止百度顯示該網頁的快照,百度會繼續為網頁建索引,並在搜索結果中顯示網頁摘要。如果是Google的話,就是<META NAME=googlebot CONTENT=index,follow,noarchive>

最後的說明:有些朋友可能啟用瞭站長日志功能,以分析蜘蛛爬取和用戶訪問情況,蜘蛛來尋找robots.txt文件時,如果尋找不到,服務器也將在日志中記錄一條404錯誤,為瞭減少log文件,去除無用信息,所以建議你在網站根目錄下添加robots.txt,即使是空的robots文件也好。

其他更多的用法,有待於各位結合實戰慢慢總結。本站於今日新上線,內容將全原創,歡迎同類站長交流並提出意見建議。QQ:1030036466 店主傢園:

本文投稿於中國站長站,歡迎轉載,但請保留鏈接。