簡單的認識搜索引擎

  雖然百度已全面取消referer,但網站SEO優化工作,依然不可缺少。因為做SEO優化,是為瞭使網站更加適合搜索引擎的檢索行為,為網站帶來自然流量。常言道,知己知彼,百戰不殆,下面,就和白掌一起來認識一下搜索引擎把。

  首先,和白掌一起認識一下什麼是搜索引擎。

  搜索引擎,就是在搜索框中,直接輸入所需信息的關鍵詞,就可從互聯網中獲取與搜索詞相關信息的軟件系統。通常,這些搜索結果會呈現在搜索結果頁,搜索到的信息,可能是網頁,可能是圖像,也可能是其它類型的文件。對於人工實時維護更新的站點,大多情況下,也就是我們所優化的網站,搜索引擎會派出基於一定算法的網站爬蟲來抓取站點實時更新的信息。但是,在搜索引擎發展之初,並沒有網站爬蟲的存在。

  然後,讓我們一起來看一下搜索引擎早期的發展。

  在互聯網發展早期,蒂姆•伯納斯•李建立瞭第一個網站並托管在CERN(歐洲核子研究組織)的服務器上。後來,蒂姆在這個網站中列舉瞭其它網站,其中尚存有記錄的是1992年的一次具有歷史意義的快照。但隨著越來越多服務器上線,這份列表無法及時更新,自後再上線的新服務器,都會出現在NCSA Mosaic下一個名為Whats New的分類中。

  第一個被用於在互聯網上提供搜索服務的工具時Archie,這一象征Archive的名稱,並不包含其中的字母v。這一工具,是由蒙特利爾市McGill University計算機科學專業的學生Alan Emtage、Bill Heelan和J.Peter Deutschz於1990年做成。他們下載瞭公共匿名FTP站點上所有文件的目錄列表,創建瞭一個可對文件名稱進行搜索的數據庫。但不管怎樣,受數據量的限制,Archie不能索引這些站點的內容,隻能進行手動搜索。

  1991年,Mark McCahill創建瞭Gopher系統。它的出現促使兩大新搜索程序-Veronica和Jughead-誕生。類似於Archie,這兩項搜索程序可搜索收錄於Gopher索引系統中的文件名和標題。其中,Veronica提供瞭在Gopher列表的大多數目錄標題中進行關鍵詞搜索的服務,Jughead則是一個從特定Gopher服務器獲取菜單信息的工具。當搜索引擎Archie的名稱還未收錄到Archie系列叢書中,Veronica和Jughead就已存在於這套叢書中,不過其中會索引Archie相關的內容。

  1993年夏天,雖然專業目錄有人工維護,但尚沒有為Web而存在的搜索引擎。Geneva某大學的Oscar Nierstrasz寫瞭一系列Perl手稿。Oscar會在這些手稿中,定期反饋網頁的情況,後來他又按照一種標準格式,將這些手稿編輯瞭一遍。這些手稿,就是之後W3Catalog的雛形,web的第一個原始搜索引擎發佈於1993年9月2日。

  1993年6月,Matthew Gray打造瞭第一個web robot(搜索引擎爬蟲機器人)-the Perl-based World Wide Web Wanderer,並將其用於生成一種叫做Wandex的索引。Wanderer存在的目的是為瞭衡量萬維網(World Wide Web)的大小,Web的第二個搜索引擎是Aliweb,它出現於1993年11月。Aliweb沒有采用web robot,它是使用一種特定的格式來索引每一個站點的信息。

  1993年12月,Jonathon Fletcher創建瞭Jump Station系統。這種系統使用一種Web Robot來發現網頁並為其建立索引,同時,用一種web格式來作為其搜索程序的接口。Jump Station可以說是世界上第一個World Wide Web的搜索引擎。它將網頁搜索引擎的三大基本特征-抓取、索引和搜索-集於一體。但是由於Jump Station所在平臺可用資源的局限性,其索引內容僅限於web robot遇到的網頁標題和副標題。

  1994年,WebCrawler誕生,它是允許Web Robot爬取全文內容的搜索引擎之一。與其前輩不同的是,它支持用戶搜索任一網頁中的任一個搜索詞。之後,它成為所有主流搜索引擎的標準,也是第一個被公眾所熟知的搜索引擎。

  同年,卡內基梅隆大學創建瞭Lycos。Lycos是搜索引擎中的元老,最早提供信息搜索服務的網站之一,也是重要的商業典型。1996年,Lycos以收錄6000W文件位居當時最大的搜索引擎。

  隨後,互聯網中出現很多搜索引擎。這些搜索引擎包括Magellan網際網路搜索引擎、EXCITE搜索引擎、Infoseek資訊查找、因特通、Northern Light搜索引擎和AltaVista,紛紛搶占人氣。Yahoo!是當時廣受歡迎的搜索方式,但它的搜索功能僅能在它的網頁目錄下運行,而不是其網頁的全文本副本。查詢的人也可以瀏覽目錄,而無需進行關鍵詞搜索。

  1996年,Netscape計劃在其瀏覽器打造一款專屬自己並極具特色的搜索引擎。消息發出後,對此感興趣的互聯網公司很多, Netscape就改變計劃,與五傢主流搜索引擎達成協議,將這五個搜索引擎輪流放在Netscape的搜索引擎頁。這五傢公司分別是 Yahoo!,Magellan,Lycos,Infoseek和Exicite。

  1998年,Google從Goto.com引入瞭PPC的概念,簡單的說就是,買賣搜索詞, 這對於之後搜索引擎商業化具有重大意義,使互聯網變現成為可能。

  在20世紀90年代末期,搜索引擎,也以互聯網投資風暴中的明星產品而著稱。有些公司高調進入互聯網市場,在首次公開募股中均獲得瞭創紀錄的收益。有些公司則砍掉瞭其公共搜索引擎,轉型為專門的營銷公司,比如Northern Light。很多搜索引擎公司都遭遇瞭投機泡沫(1995-2001)期間的互聯網泡沫,鼎盛於1999年,結束於2001年。

  2000年前後,Google搜索引擎聲名鵲起。正如谷歌後來的創始人Sergey Brin和Larry Page所寫的Anatomy of a Search Engine一文中所解釋的,PageRank技術的提出采用谷歌搜索可以得到較好的搜索結果。這一為網頁排名的迭代算法,是通過互聯網浩瀚的超鏈接關系來確定頁面的等級。Google把從A網頁到B網頁的鏈接解釋為A網頁給B網頁的點贊,然後Google根據點贊網頁(甚至來源的來源,即鏈接到A網頁的網頁)和被點贊網頁的等級來決定新的等級,簡單的說,一個高等級的網頁可使其它低等級頁面的等級提升。谷歌搜索也一直為其搜索引擎維持一個簡潔的頁面。相反,谷歌的很多競爭對手都選擇將其搜索引擎嵌入到某一門戶網站。樹欲靜而風不止,谷歌因其飽受歡迎一直在被Mystery Seeker惡搞,比如前段時間,谷歌地圖中顯示白宮是個黑鬼屋。

  2000年,Yahoo!在Inktomi的搜索引擎中提供搜索服務。2002年,Yahoo!收購Inktomi,並於2003年收購Overture。2004年,Yahoo!兼並瞭Inktomi和Overture的技術,推出自己的搜索引擎,與谷歌成為競爭對手。

  1998年秋天,Microsoft采用Inktomi的搜索結果推出MSN搜索。1999年上半年, MSN開始在Inktomi搜索結果中摻雜來自Looksmart搜索結果。1999年有一段時間,MSN搜索也會采用AltaVista的搜索列表。2004年,Microsoft開始專註搜索技術,打造自己的Web Robot。2009年1月1日,Microsoft將MSN更名為Bing並上線。2009年7月29日,Yahoo!與Microsoft達成合作關系,在這一合作中,Yahoo!可得到Microsoft Bing技術的支持。

  最後,和白掌一起來瞭解一下搜索引擎的工作。

  搜索引擎的工作通常分為三個步驟,即爬行、索引,搜索。

  簡單地說,搜索引擎會存儲標記有html的網頁,這些網頁通常都是網站爬蟲(有時也稱作蜘蛛)抓取來的。而網站爬蟲,會定期到訪網站,並爬行網站內容的自動程序。站長可通過robots.txt文件來排除不希望被爬蟲抓取的頁面。

  爬蟲將頁面內容抓取回來後,搜索引擎會對這些內容進行分析,以確定如何索引這些內容,例如,搜索引擎會從網頁的標題、網站內容、題目或Meta標簽中提取出關鍵詞。網頁的數據會存儲至索引庫,用於之後的搜索詞搜索。用戶的搜索詞可以是單個的詞,索引會幫助用戶盡可能快的找到搜索詞相關的信息。

  搜索詞處理

  用戶在搜索引擎界面輸入關鍵詞,單擊搜索按鈕後,搜索引擎程序即對搜索詞進行處理,如中文特有的分詞處理,去除停止詞,判斷是否需要啟動整合搜索,判斷是否有拼寫錯誤或錯別字等情況。搜索詞的處理必須十分快速。

  排序

  對搜索詞處理後,搜索引擎程序便開始工作,從索引數據庫中找出所有包含搜索詞的網頁,並且根據排名算法計算出哪些網頁應該排在前面,然後按照一定格式返回到搜索頁面。

  再好的搜索引擎也無法與人相比,這就是為什麼網站要進行搜索引擎優化。沒有SEO的幫助,搜索引擎常常不能正確的返回最相關、最權威、最有用的信息。

  xue.sem123.com,讓信息變得簡單。