Robots文件是搜索引擎網站過訪網站時第1個要讀取的文件,它奉告搜索手續服務器上哪一些內部實質意義可以抓取,哪一些無須抓取。
到現在為止網站的robots文件裡邊的抓取規則已經一天一天地走向完備,譬如嚴禁了網頁中圖片的抓取,嚴禁蛛蛛抓取一點會員隱私(私人簡歷)頁面、一點無用頁面(之前的推廣頁面)、式樣表文件等,不過還是有局部頁面並不必蛛蛛手續的抓取,這局部頁面只是面向用戶的,搜索引擎網站抓取了並沒有啥子意義,分割了頁面的權重。
一、網站的404頁面
每個網站都存在一點不正確頁面,404頁面的存在就是為了當用戶過訪了不正確頁面的時刻能夠將用戶指導到准確的頁面上,避免網站流量的流失。而一個頁面較多的網站肯定存在眾多的不正確頁面,這就造成存在眾多相仿的404頁面,例如,,
如下所述圖所示:
所以,一朝404頁面非常多,而還讓搜索引擎網站去收錄,便會造成網站把權重分給這些個404頁面,所以應當屏蔽404頁面。
添加規則:Disallow:/404.html
二、網站局部導航頁面
網站底部的一點導航頁面,如市場合作網站聲明付費形式等都是針對客戶的頁面,幾乎沒有用戶經過搜索引擎網站上搜索這些個頁面並到了網站,並且這些個導航頁面是全站顯露的,全部的內部實質意義頁面都存在,一樣的也要散布這些個頁面的權重。
這局部頁面都是位於同一目次/main下,該目次下除保存局部頁面需蛛蛛施行抓取外,其它頁面可以都嚴禁,保存頁面為:關於我們(main/aboutus.asp),友誼鏈接(main/friendlink.asp)。這個之外資費標准付費形式頁面位於公司會員核心頁面,這些個頁面也沒有不可缺少對搜索引擎網站開放。
添加規則:
Allow:/main/aboutus*
Allow:/main/friendlink*
Allow:/main/recruitmeeting*
Allow:/main/investigation*
Disallow:/main/
Disallow:/company/companyapplymember*
將現存規則中最終一條刪去:disallow: /main/refuse*
將新添加的兩條Allow規則放到disallow指示的面前。
經過一點對搜索引擎網站抓取意義半大的頁面,將首頁和一點內部實質意義頁面的權重更加集中。
版權全部,伍億人材誠聘網,過載請注明來源。