嚴禁搜索引擎網站收錄的辦法


  • 啥子是robots.txt文件?
    搜索引擎網站經過一種手續robot(又叫作spider),半自動過訪互聯網上的網頁並取得網頁信息。
    您可以在您的網站中開創一個純文本文件robots.txt,在這個文件中聲明該網站中沒想到被robot過訪的局部,這麼,該網站的局部或所有內部實質意義就可以不被搜索引擎網站收錄了,還是指定搜索引擎網站只收錄指定的內部實質意義。



  • robots.txt文件放何在?
    robots.txt 文件應當放在網站根目次下。舉例來說,當robots過訪一個網站(譬如 和/help/index.html都不准許搜索引擎網站過訪,而”Disallow:/help/”則准許robot過訪/help.html,而不可以過訪 /help/index.html。不論什麼一條Disallow記錄為空,seo解釋明白該網站的全部局部都准許被過訪,在”/robots.txt”文件中,至少要有一條Disallow記錄。假如”/robots.txt”是一個具文件,則對於全部的搜索引擎網站robot,該網站都是開放的。


  • robots.txt文件用處舉例
















    例1. 嚴禁全部搜索引擎網站過訪網站的不論什麼局部
    下載該robots.txt文件
    User-agent: *
    Disallow: /
    例2. 准許全部的robot過訪 (還是也可以建一個具文件 “/robots.txt” file) User-agent: *
    Disallow:
    例3. 嚴禁某個搜索引擎網站的過訪 User-agent: BadBot
    Disallow: /
    例4. 准許某個搜索引擎網站的過訪 User-agent: baiduspider
    Disallow:


    User-agent: *
    Disallow: /
    例5.一個簡單例子
      在這個例子中,該網站有三個目次對搜索引擎網站的過訪做了限止,即搜索引擎網站不會過訪這三個目次。
      需求注意的是對每一個目次務必分開聲明,而不要寫成 “Disallow: /cgi-bin/ /tmp/”。
      User-agent:後的*具備特別的涵義,代表”any robot”,所以在該文件中來不得”Disallow: /tmp/*” or “Disallow:*.gif”這麼的記錄顯露出來.
    User-agent: *
    Disallow: /cgi-bin/
    Disallow: /tmp/
    Disallow: /~joe/



  • robots.txt文件參照資料
    robots.txt文件的更具體設置,請參見以下鏈接:
    · Web Server Administrator’s Guide to the Robots Exclusion Protocol
    · HTML Author’s Guide to the Robots Exclusion Protocol
    · The original 1994 protocol description, as currently deployed
    · The revised Internet-Draft specification, which is not yet completed or implemented