追溯互聯網搜索引擎的發展史起源

  搜索引擎的發展史

  1990年以前,沒有任何人能搜索互聯網。 所有搜索引擎的祖先,是1990年由Montreal(加拿大的蒙特利爾)的McGill University學生 Alan Emtage、Peter Deutsch、Bill Wheelan發明的Archie( Archie FAQ )。雖然當時World Wide Web還未出現,但網絡中文件傳輸還是相當頻繁的,由於大量的文件散佈在各個分散的FTP主機中,查詢起來非常不便,因此AlanEmtage等想到瞭開發一個可以用文件名查找文件的系統,於是便有瞭Archie。Archie是第一個自動索引互聯網上匿名FTP網站文件的程序,但它還不是真正的搜索引擎。Archie是一個可搜索的FTP文件名列表,用戶必須輸入精確的文件名搜索,然後Archie會告訴用戶哪一個FTP地址可以下載該文件。

  由於Archie深受歡迎,受其啟發,Nevada(美國的內華達州) System Computing Services大學於1993年開發瞭一個Gopher(Gopher FAQ )搜索工具Veronica(Veronica FAQ )。Jughead是後來另一個Gopher搜索工具。

  Robot(機器人)一詞對編程者有特殊的意義。Computer Robot是指某個能以人類無法達到的速度不斷重復執行某項任務的自動程序。由於專門用於檢索信息的Robot程序象蜘蛛(spider)一樣在網絡間爬來爬去,因此,搜索引擎的Robot程序被稱為spider( Spider FAQ )程序。世界上第一個Spider程序,是MIT Matthew Gray 的Worldwide Web Wanderer,用於追蹤互聯網發展規模。剛開始它隻用來統計互聯網上的服務器數量,後來則發展為也能夠捕獲網址(URL)。

  與Wanderer相對應,1993年10月 Martijn Koster 創建瞭 ALIWEB (Martijn Koster Annouces the Availability of Aliweb ),它相當於Archie的HTTP版本。ALIWEB不使用網絡搜尋Robot,如果網站主管們希望自己的網頁被ALIWEB收錄,需要自己提交每一個網頁的簡介索引信息,類似於後來大傢熟知的Yahoo。

  隨著互聯網的迅速發展,使得檢索所有新出現的網頁變得越來越困難,因此,在Wanderer基礎上,一些編程者將傳統的Spider程序工作原理作瞭些改進。其設想是,既然所有網頁都可能有連向其他網站的鏈接,那麼從一個網站開始,跟蹤所有網頁上的所有鏈接,就有可能檢索整個互聯網。到1993年底,一些基於此原理的搜索引擎開始紛紛湧現,其中最負盛名的三個是:Scotland的JumpStation、Colorado 大學Oliver McBryan的The World Wide Web Worm(First Mention of McBryan’s World Wide Web Worm )、NASA的Repository-Based Software Engineering (RBSE) spider。JumpStation和WWW Worm隻是以搜索工具在數據庫中找到匹配信息的先後次序排列搜索結果,因此毫無信息關聯度可言。而RBSE是第一個索引Html文件正文的搜索引擎,也是第一個在搜索結果排列中引入關鍵字串匹配程度概念的引擎。

  Excite 的歷史可以上溯到1993年2月,6個Stanford(斯坦福)大學生的想法是分析字詞關系,以對互聯網上的大量信息作更有效的檢索。到1993年中,這已是一個完全投資項目Architext,他們還發佈瞭一個供webmasters在自己網站上使用的搜索軟件版本,後來被叫做Excite for Web Servers。(註:Excite後來曾以概念搜索聞名,2002年5月,被Infospace收購的Excite停止自己的搜索引擎,改用元搜索引擎 Dogpile 。目前Excite隸屬於Ask Jeeves公司。)

  1994年1月,第一個既可搜索又可瀏覽的分類目錄EINet Galaxy (Tradewave Galaxy)上線。除瞭網站搜索,它還支持Gopher和Telnet搜索。