網站優化:robots.txt使用教程

首先,我來介紹一下什麼是robots.txt:robots.txt是搜索引擎中訪問網站的時候要查 看的第一個文件。Robots.txt文件告訴蜘蛛程序在服務器上什麼文件是可以被查看的。當一個搜索蜘蛛訪問一個站點時,它會首先檢查該站點根目錄下是 否存在robots.txt,如果存在,搜索機器人就會按照該文件中的內容來確定訪問的范圍;如果該文件不存在,所有的搜索蜘蛛將能夠訪問網站上所有沒有 被口令保護的頁面。最後,robots.txt必須放置在一個站點的根目錄下。

大傢可以參考一下谷歌、百度和騰訊的robots寫法:

/robots.txt

/robots.txt

/robots.txt

大傢瞭解完robots.txt後,那麼我們可以用robots.txt來做什麼?

1、用robots.txt屏蔽相似度高的頁面或沒內容的頁面。

我們知道,搜索引擎收錄網頁後,會對網頁進行審核,而當兩個網頁的相似度很高時,那麼搜索引擎就會刪除掉其中一個,並且會降低一點你網站的得分。

假設以下這兩個鏈接,內容其實差不多,那麼第一個鏈接就應該屏蔽掉。

/XXX?123

/123.html

像第一個的鏈接這樣的鏈接非常多,那麼我們要怎麼屏蔽呢?其實隻要屏蔽/XXX?就可以屏蔽所有的鏈接瞭。

代碼如下:

Disallow: /XXX?

同理,一些沒有內容的頁面我們也可以利用相同的辦法將其屏蔽掉。

2、用robots.txt屏蔽多餘的鏈接,一般保留靜態的鏈接(既HTML、htm、shtml等)。

由於網站中經常會出現多個鏈接指向同一個頁面的情況,而這樣會讓搜索引擎對網站的友好度降低。為瞭避免這一個情況,我們就可以通過robots.txt把 非主要的鏈接去掉。

比如以下兩個鏈接指向同樣的頁面:

/OOO?123

/123.html

那麼我們就應該去掉第一個垃圾,代碼如下:

Disallow: /OOO?123

3、用robots.txt屏蔽死鏈

死鏈就是曾經存在的網頁,因為改版或其他原因而失去效用後就變成死鏈,也就是說看似一個正常的網頁鏈接,但點擊後不能打開相對應的網頁頁面。

比如,原來在目錄為/seo下的所有鏈接,因為目錄地址的改變,現在都變成死鏈接瞭,那麼我們可以用robots.txt把他屏蔽掉,代碼如下:

Disallow: /seo/

4、告訴搜索引擎你的sitemap.xml地址

利用robots.txt可以告訴搜索引擎你sitemap.xml文件的地址,而不需要在網站上添加sitemap.xml的鏈接。具體代碼如下:

Sitemap: 你的sitemap地址

以上就是robots.txt的基本用法,一個好的網站必定會有一個好的robots.txt,因為robots.txt是搜索引擎瞭解你網站的一 個途徑。另外在這裡我推薦一下一個比較適合wordpress用戶使用的robots.txt寫法:

User-agent: *

Disallow: /wp-

Disallow: /feed/

Disallow: /comments/feed

Disallow: /trackback/

Sitemap: /sitemap.xml

最後,如果你覺得上面所說的還不能滿足你的需要,那麼你可以在谷歌或百度官方提供的robots.txt使用指南學習:

百度:/search/robots.html

谷歌:/support/forum/p/webmasters/thread?tid=4dbbe5f3cd2f6a13hl=zh-CN

原創文章,如需轉載,請註明:轉載自雨澤博客

本文鏈接:/seo/47.html