網站的規范標準化建設以及robots協議詳解

一、遵循W3C規范

W3C是英文 World Wide Web Consortium 的縮寫,中文意思是W3C理事會或萬維網聯盟。W3C於1994年10月在麻省理工學院計算機科學實驗室成立。創建者是萬維網的發明者Tim Berners-Lee。

W3C組織是對網絡標準制定的一個非贏利組織,像HTML、XHTML、CSS、XML的標準就是由W3C來定制。W3C會員(大約500名會員)包括生產技術產品及服務的廠商、內容供應商、團體用戶、研究實驗室、標準制定機構和政府部門,一起協同工作,致力在萬維網發展方向上達成共識。對於seo工作者對w3c的認識主要體現在對html,xhtml,xml語言標簽代碼的語義化認識上。

二、網站地圖

1.html網站地圖

Html網站地圖是一種構建思路。也是鏈接構建技術。Html地圖是溝通網站主要欄目之間的橋梁。起著引導瀏覽者和促進爬蟲程序遍歷全站的作用。如果,地圖鏈接入口過多,應該保持每張地圖不超過100個鏈接入口。

對於天極來說,網站地圖有指向頻道頁及下級分類頁的文本鏈接就足夠瞭,更重要的是讓用戶很清楚的瞭解到天極能提供什麼以及天極的特色在哪裡;對於中型站點來說,仍建議在網站地圖中加入內容頁的文字鏈接,可以通過技術手段生成以文章關鍵詞搭配文章標題為錨文本的文字鏈接網站地圖,並且用程序控制鏈接數量並自動分頁。

2.谷歌網站地圖

Google地圖跟html地圖作用不同,他是完全面對搜索引擎而制作的網站地圖。Google地圖基於xml技術。Google地圖全稱是Google Sitemaps 是Google 的一個和網站管理員相關的工具,建立Google Sitemaps可以有效的促進google對網站頁面的收錄。現在google地圖已經被各個網站廣泛使用。

三、robots.txt

Robots是搜索引擎的爬蟲程序通告(爬行器通告)。對於網站管理者和內容提供者來說,有時候會有一些站點內容,不希望被ROBOTS抓取而公開。為瞭解決這個問題,ROBOTS開發界提供瞭兩個辦法:一個是robots.txt,另一個是The Robots META標簽。

1.什麼是robots.txt?

robots.txt是一個純文本文件,通過在這個文件中聲明該網站中不想被robots訪問的部分,這樣,該網站的部分或全部內容就可以不被搜索引擎收錄瞭,或者指定搜索引擎隻收錄指定的內容。

當一個搜索機器人訪問一個站點時,它會首先檢查該站點根目錄下是否存在robots.txt,如果找到,搜索機器人就會按照該文件中的內容來確定訪問的范圍,如果該文件不存在,那麼搜索機器人就沿著鏈接抓取。

robots.txt必須放置在一個站點的根目錄下,而且文件名必須全部小寫。

網站 URL

相應的 robots.txt的 URL

/

/robots.txt

2. robots.txt的語法

robots.txt文件包含一條或更多的記錄,這些記錄通過空行分開(以CR,CR/NL, or NL作為結束符),每一條記錄的格式如下所示:

<field>:<optionalspace><value><optionalspace>

在該文件中可以使用#進行註解,具體使用方法和UNIX中的慣例一樣。該文件中的記錄通常以一行或多行User-agent開始,後面加上若幹Disallow行,詳細情況如下:

User-agent:

該項的值用於描述搜索引擎robot的名字,在robots.txt文件中,如果有多條User-agent記錄說明有多個robot會受到該協議的限制,對該文件來說,至少要有一條User-agent記錄。如果該項的值設為*,則該協議對任何機器人均有效,在robots.txt文件中, User-agent:*這樣的記錄隻能有一條。

Disallow :

該項的值用於描述不希望被訪問到的一個URL,這個URL可以是一條完整的路徑,也可以是部分的,任何以Disallow 開頭的URL均不會被robot訪問到。例如Disallow: /help對/help.html 和/help/index.html都不允許搜索引擎訪問,而Disallow: /help/則允許robot訪問/help.html,而不能訪問/help/index.html。

任何一條Disallow記錄為空,說明該網站的所有部分都允許被訪問,在/robots.txt文件中,至少要有一條Disallow記錄。如果 /robots.txt是一個空文件,則對於所有的搜索引擎robot,該網站都是開放的。

下面是一些robots.txt基本的用法:

禁止所有搜索引擎訪問網站的任何部分:

User-agent: *

Disallow: /

允許所有的robot訪問

User-agent: *

Disallow:

或者也可以建一個空文件 /robots.txt file

禁止所有搜索引擎訪問網站的幾個部分(下例中的cgi-bin、tmp、private目錄)

User-agent: *

Disallow: /cgi-bin/

Disallow: /tmp/

Disallow: /private/

禁止某個搜索引擎的訪問(下例中的BadBot)

User-agent: BadBot

Disallow: /

隻允許某個搜索引擎的訪問(下例中的WebCrawler)

User-agent: WebCrawler

Disallow:

User-agent: *

Disallow: /