百度原創文章與過載檢驗測定算法

  隨著互聯網的飛速進展,網絡中存在數量多重復的資源文件。例如,大部分數用戶會將其期望分享的資源文件上傳至網絡,對於熱門兒的、還是受熱烈歡迎度較高的資源文件,會被很多用戶上傳至網絡,這定然導致相同的資源文件被重復上傳。同時,不一樣的網站也會過載、援用以及供給下載相同的資源文件,這進一步擴張了網絡中重復資源文件的數目。

  而後,搜索引擎網站經過網絡蛛蛛 (spider)、網絡爬行動物 (crawler)還是機器人(robot)等網頁抓取工具從網絡中抓取網頁時,對抓取到的網頁不做區別,這些個網頁中有可能涵蓋指向相同的資源文件的網頁。假如錯誤這些個指向相同的資源文件的網頁去重,搜索引擎網站在抓取這些個網頁後,需求數量多的儲存空間來儲存這些個網頁,況且還需求分配更多的檢驗測定設施對儲存的網頁施行後期檢驗測定。

  因為這個,怎麼樣供給一種基於內部實質意義特點標志信息對指向相同資源文件的多個鏈接施行去重

  處置的辦法,變成到現在為止緊急需要解決的問題之一。

  所述第1鏈接集中第1鏈接的抓取時間 ;

  所述第1鏈接集中第1鏈接的萌生時間 ;

  所述第1鏈接集中第1鏈接對應的網頁的流量 ;

  所述第1鏈接集中第1鏈接對應的網頁的權威度。

  具體地,第1鏈接集中第1鏈接的抓取時間指搜索引擎網站抓取到第1鏈接並將其放入搜索引擎網站引得信息庫中的時間,該抓取時間越早,表明相應的第1鏈接被搜索引擎網站發覺的時間越早,這在一定程度上表征了該第1鏈接所指向的資源文件的品質也較高。

  第1鏈接集中第1鏈接的萌生時間指該第1鏈接及其所指向的資源文件在網絡上的宣布時間,該萌生時間越早,表明相應的第1鏈接的存在並延續時間越久,這在一定程度上表征了該第1鏈接所指向的資源文件的品質也較高。

  第1鏈接集中第1鏈接對應的網頁的流量指與該第1鏈接相對應的網頁的過訪量,該流量可以是日級、周級,甚至於是月級的,該流量越大,表明該第1鏈接對應的網頁,也即該第1鏈接所指向的資源文件存在的地方的網頁的用戶過訪量越大,解釋明白該資源文件的用戶關心注視度和用戶熱烈歡迎度較高,這在較高程度上表征了該第1鏈接所指向的資源文件的品質也較高。

  第1鏈接集中第1鏈接對應的網頁的權威度指搜索引擎網站還是第三方設施對與該第1鏈接相對應的網頁的品質及關緊程度的名聲,該權威度越高,表明該第1鏈接對應的網頁,也即該第1鏈接所指向的資源文件存在的地方的網頁的較高且較為關緊,這在較高程度上表征了該第1鏈接所指向的資源文件的品質也較高。

  技術擔任職務的人應能了解上面所說的對第1鏈接集去重處置的參照因素僅為舉例,其它現存的或從今以後有可能顯露出來的對第1鏈接集去重處置的參照因素

  狗小雲SEO博客首發 本算法出處百度內裡材料,http://blog.sina.com.cn/70mazlc