竹影涼爽的風:被疏忽的SEO利器robots.txt

  竹影涼爽的風做網站也有點年頭了,應各位站長朋友的要求今日跟各位分享一點兒我的點滴經驗。今日的話題重點是robots.txt。各位站長朋友有可能比較少關心注視robots.txt,但善用robots.txt完全對你的網站是有百益而無一害的。

  聲明:此文僅適應生手,老鳥請優雅地飄過。

  話題一:robots.txt是啥子?

  這處援用Baidu作出的應答,robots.txt是一個務必放在根目次下面的純文本文件,文件名務必所有是小寫的字母即robots.txt,在這個文件中聲明該網站中沒想到被robot過訪的局部,這麼,該網站的局部或所有內部實質意義就可以不被搜索引擎網站收錄了,還是指定搜索引擎網站只收錄指定的內部實質意義。

  話題二:robots.txt具體怎麼樣運用?

  效用1:SEO中指導搜索蛛蛛抓取網站地圖,更好地收錄網站頁面。

  如今Google\ Yahoo等海外搜索引擎網站都已支持在robots.txt文件裡指明sitemap文件的鏈接,在蛛蛛過訪robots.txt時告知你網站地圖存在的地方的位置,以利於蛛蛛更好地收錄你網站的頁面。運用語法是sitemap: /sitemap.xml(Google)還是是sitemap: /sitemap.txt(Yahoo)。那裡面地圖文件你可以運用網站地圖制造軟件生成,還是你自個兒編著手續生成。

  效用2:嚴禁全部搜索蛛蛛抓取你網站的全部內部實質意義還是是指定目次。在建站實際作戰中有這樣幾種常見的具體事情狀況:

  第1種事情狀況是嚴禁全部搜索蛛蛛抓取你網站的不論什麼內部實質意義。

  如果我的網站剛傳到服務器上還是虛擬主機上調整,不過因為網站頁面題目還是是網站關鍵詞等還沒有優化好,外面又有了網站的外鏈了,不過還沒想到讓搜索引擎網站收錄時,就可以嚴禁全部搜索引擎網站來收錄你的不論什麼頁面。

  在這處我舉一個反面的例子,06我建了某個網站,運用了織夢的內部實質意義管理手續,首次仿用了一個模型板,加了些內部實質意義就興奮地向各搜索引擎網站提交處理了,次日就被搜索引擎網站收錄了,再過了幾天也放出了幾百篇內部實質意義,不過後來我又找了一套更漂亮清爽新鮮的模型板,改了下又從新生成了全部頁面,如這個地方改動了好幾次。因為各搜索的蛛蛛都是母的,網站頁面常常改動,尤其是title等關緊屬性的改動讓她很沒有安全感,對網站萌生了嚴重的不相信,最後結果我的網站頁面過了一兩個月纔還原過來。所以各位站長在網站上線對搜索開放之前必須要找准了網站定位,況且在優化好了往後再向搜索引擎網站開放不seo遲。

  又例如你的網站僅是你跟你戀人的戀愛家園,僅只是你們自娛自樂的,而沒想到被抓取的,又例如你的網站是企業內裡用的網站,是全隱秘的內部實質意義,不必對不論什麼蛛蛛抓取的,又還是不論什麼其它的具體事情狀況要嚴禁不論什麼搜索引擎網站抓取的。

  嚴禁全部搜索引擎網站收錄網站不論什麼頁面的語法為:

  User-agent: *
  Disallow: /

  第二種事情狀況是需求嚴禁全部搜索引擎網站抓取網站特別指定的一點目次。
  (1)網站某些目次是手續和目錄錄,絕對沒有被抓取的不可缺少,為了增長服務器性能,防止搜索抓取時耗費服務器資源,可以嚴禁全部搜索引擎網站抓取這些個目次。(2)網站局部目次是一點會員信息還是是實際上敏銳,私密性的內部實質意義,嚴禁搜索引擎網站抓取的。(3)某些目次下的內部實質意義全是搜集未作不論什麼改正的內部實質意義,這局部內部實質意義僅是為了浩博內部實質意義,不過並沒想到被搜索引擎網站收錄,這時就需求嚴禁搜索引擎網站抓取。(例如我曾經做的一個網站,一小批是全原創的內部實質意義,用以被搜索抓取的。一小批內部實質意義是全搜集而來僅為浩博網站內部實質意義,增長用戶體驗認識的,不過又沒想到讓搜索引擎網站收錄覺得是垃圾信息而給網站降權,那末這局部目次我就要屏蔽搜索蛛蛛!)等等其它事情狀況!

  嚴禁全部搜索引擎網站抓取特別指定目次還是特別指定頁面的語法例子為:

  User-agent: *
  Disallow: /plus/count.php
  Disallow: /include
  Disallow: /news/old

  大家有興致的話,可以到竹影涼爽的風新上線的dianzhu2.com去檢查下我的robots.txt,裡邊有一點具體的例子解釋明白。

  效用3:嚴禁某蛛蛛抓取你網站的全部內部實質意義。

  這處有這樣幾種事情狀況,(1)你曾嚴重被baidu降權過、瞧不起過、恥辱過,又還是你是反百度聯盟的人員,因此要跟它決裂的,要嚴禁它抓取你網站的不論什麼內部實質意義。(2)你的網站已經NB得跟淘寶是的了,要各個方面嚴禁百度收錄你的頁面。大家可以檢查下淘寶的robots.txt,淘寶因經濟活動好處等因素已將baidu屏蔽掉,不過因為baiduspider是母的,見馬雲帥得跟個ET是的,仍然厚著臉皮收錄了淘寶1060篇左右的內部實質意義。大家可以在百度搜索欄裡輸入site:(taobao.com)證驗下。(3)其它不論什麼想嚴禁某搜索引擎網站收錄你網站全部內部實質意義的事情狀況。

  嚴禁某指定搜索引擎網站抓取你網站不論什麼內部實質意義的語法為:

  User-agent: baiduspider
  Disallow: /

  效用4:僅准許指定的搜索蛛蛛抓取你網站的內部實質意義。

  因為我們網站的流量主要來自幾大主要的搜索引擎網站,你沒想到海外的還是是國內的其它搜索蛛蛛、流氓蛛蛛 來服務器抓取你網站內部實質意義,因此耗費服務器資源,那這個時刻,這個語法就起效用了。

  僅准許指定的搜索蛛蛛抓取你網站的內部實質意義的語法為:

  User-agent: baiduspider
  Disallow:

  User-agent: *
  Disallow: /

  那裡面User-agent: baiduspider Disallow: 可以將你准許的幾大搜索蛛蛛都列出來。在此尤其需求提示的是,務必准確書寫robots.txt,免得給網站帶來不不可缺少的損害。百度的蛛蛛:baiduspiderGoogle的蛛蛛: Googlebot騰訊Soso:SosospiderYahoo的蛛蛛:Yahoo SlurpMsn的蛛蛛:Msnbot

  效用5:嚴禁全部搜索引擎網站抓取你網站所有還是特別指定目次下的特別指定類型文件。

  嚴禁全部搜索引擎網站僅准許抓取網頁,嚴禁抓取不論什麼圖片。其語法為:

  User-agent: *
  Disallow: .jpg$
  Disallow: .jpeg$
  Disallow: .gif$
  Disallow: .png$
  Disallow: .bmp$

  若是僅嚴禁特別指定的搜索引擎網站,那末依照上頭紹介的辦法,將通配符*改為特別指定的蛛蛛名字就可以了。

  效用6:嚴禁搜索引擎網站在搜索最後結果中顯露網頁快照,而只對網頁樹立引得。

  其運用辦法為:

  百度支持經過設置網頁的meta,避免搜索引擎網站顯露網站的快照。辦法如下所述:

  要避免全部搜索引擎網站顯露您網站的快照,請將此元標記置入網頁的 <HEAD> 局部:<meta name=robots content=noarchive>要准許其它搜索引擎網站顯露快照,但僅避免百度顯露,請運用以下標記:<meta name=Baiduspider content=noarchive>注:此標記只是嚴禁百度顯露該網頁的快照,百度會接著為網頁建引得,並在搜索最後結果中顯露網頁提要。若是Google的話,就是<META NAME=googlebot CONTENT=index,follow,noarchive>

  最終的解釋明白:有點朋友有可能開始使用了站長日記功能,以剖析蛛蛛爬取和用戶過訪事情狀況,蛛蛛來尋覓robots.txt文件時,假如尋覓不到,服務器也將在日記中記錄一條404不正確,為了減損log文件,去除無用信息,所以提議你在網站根目次下添加robots.txt,縱然是空的robots文件也好。

  其它更多的用處,要等待於各位接合實際作戰慢慢總結概括。本站於今天新上線,內部實質意義將全原創,熱烈歡迎同類站長交流並提出意見提議。QQ:1030036466 店主家園:http://dianzhu2.com