避免搜索引擎網站抓取頁面

Robots.txt 文件對抓取網絡的搜索引擎網站隨意游玩器(稱為隨意游玩器)施行限止。這些個隨意游玩器是半自動的,在他們過訪網頁前會檢查是否存在限止其過訪特別指定網頁的 robots.txt 文件。假如你想盡力照顧網站上的某些內部實質意義不被搜索引擎網站收益的話,robots.txt 是一個簡單管用的工具。這處簡單紹介一下子怎麼運用它。

  怎麼樣安放 Robots.txt 文件

  robots.txt自身是一個文本seo文件。它務必位於域名的根目次中並 被起名稱為robots.txt。位於細目錄中的 robots.txt 文件失效,由於隨意游玩器只在域名的根目次中查尋此文件。例如,/robots.txt):

  User-agent: *

  Allow: /

  對於 https 協議 (https://yourserver.com/robots.txt):

  User-agent: *

  Disallow: /

  准許全部的隨意游玩器過訪您的網頁

  User-agent: *

  Disallow:

  (另一種辦法: 樹立一個空的 /robots.txt 文件, 還是不運用robot.txt。)

  運用 robots.txt 文件中途阻擋或刪去網頁

  您可以運用 robots.txt 文件來阻擋 Googlebot 抓取您網站上的網頁。 例如,假如您正在握動開創 robots.txt 文件以阻擋 Googlebot 抓取某一特別指定目次下(例如,private)的全部網頁,可運用以下 robots.txt 條目:

  User-agent: Googlebot

  Disallow: /private

  要阻擋 Googlebot 抓取特別指定文件類型(例如,.gif)的全部文件,可運用以下 robots.txt 條目:

  User-agent: Googlebot

  Disallow: /*.gif$

  要阻擋 Googlebot 抓取全部裡面含有 ? 的網址(具體地說,這種網址以您的域名開頭,後接替職務意字符串,而後是問號,然後又是恣意字符串),可運用以下條目:

  User-agent: Googlebot

  Disallow: /*?

  盡管我們不抓取被 robots.txt 中途阻擋的網頁內部實質意義或為其編織引得,但假如我們在網絡上的其它網頁中發覺這些個內部實質意義,我們還是會抓取其網址並編織引得。因為這個,網頁網址及其它公開的信息,例如指 向該網站的鏈接中的定位書契,可能會顯露出來在 Google 搜索最後結果中。然而,您網頁上的內部實質意義不會被抓取、編織引得和顯露。

  作為網站管理職員具的一小批,Google供給了robots.txt剖析工具 。它可以依照 Googlebot 讀取 robots.txt 文件的相同形式讀取該文件,況且可為 Google user-agents(如 Googlebot)供給最後結果。我們猛烈提議您運用它。 在開創一個 robots.txt 文件之前,有不可缺少思索問題一下子哪一些內部實質意義可以被用戶搜獲得,而哪一些則不應當被搜獲得。 這麼的話,經過合理地運用 robots.txt , 搜索引擎網站在把用戶帶到您網站的同時,又能保障隱私信息不被收錄。