Google漏下了啥子

Google漏下了啥子

人們以為Google引得了互聯網上的一切。然而,Google也許是我們所領有的最好的搜索引擎網站,不過,Google所引得的互聯網上的資源遠比我們假想的要少得眾多。依據Google首頁面供給的數值,到現在為止,它引得了3,083,324,652個頁面,而據估計,其實在互聯網上有達100億只奪得頁面存在。我們不止要問,那一些被Google省卻的頁面都是啥子呢?

如今,我們碰到了一個難於提出的問題。假如我們想真實的曉得Google到盡頭漏下了些啥子,那我們一定要有一個比Google企業的有經驗更為堅強雄厚的引得有經驗。在我們的此項研討中,作為了解Google引得了啥子和漏下了之類起頭,我們選取了”googlology”這麼一個詞來追蹤, ‘Goolology’是Webmaster World在2002年十月第十二期首次提出來的,續而作為一個詞在Microdoc News的前身站點Google Village上被運用,到2003年五月十號,經過Google的查問,該詞義共顯露出來在655個頁面。而後,我們著手在互聯網上滿眼搜索全部裡面含有有”googlology”的頁面,作為我們第一次探索追究Google到底漏下了那一些的實際的例子,我們發覺,”googlology”這個詞在現時實際所顯露出來的頁面數量要比Google列出的要多。

Google從它的數值庫中的一共655個頁面中列出了624個頁面的引得。我們抓取了那一些鏈接的screen-scraped,把他們放入我們的文本數值庫中。我們的研討擔任職務的人設置了WebWolf,讓這個桌面兒『爬行動物』在互聯網上辦公了兩個星期來獵取那一些裡面含有有”googlology”的頁面。 我們將網絡上多達220,000個鏈接的Blogging新聞題目作為動身點;我們的爬行動物從那邊著手,尾隨著一個又一個鏈接,一直到它能在互聯網上尋遍”googlology”這個詞。

在兩個禮拜的搜索在這以後,我們找到達2,199個頁面粉和水發酵制成的食品含”googlology”這個詞。這也就意味著Google只引得了全部裡面含有有”googlology”這個詞的頁面的29百分之百。我們發覺,額外的1,544裡面含有有”googlology”的頁面在Google的數值庫中不存在。我們不盡要問,那一些掄有被Google引得的頁面都是哪一些?他們都來自那品類型的站點?

Microdoc News運用了一個mapping工具來剖析我們在搜索中開創的數值庫。全部裡面含有有”googlology” (2,199個)的頁面用最外圈的犗黑線鴨子蛋圓被標繪在我們的照射圖上。這個大的鴨子蛋圓裡邊的整個兒地區范圍代表那一些裡面含有有”googlology”的全部頁面。我們對這些個頁面依照下邊的七類施行歸類:

 

  • Blog頁面
  • 教育類頁面
  • 主流電視臺站點的頁面
  • 新聞,信息和目次頁面
  • Junk
  • Other database by Google
  • Other not-databased by Google
     

 

最後結果顯露在下邊這種照射圖中。它為我們供給了一個裡面含有有”googlology”,但掄有被Google引得的頁面的可視化圖景。圖中紅色地區范圍標繪了哪一些裡面含有有”googlology”,況且全部被Google引得的624個頁面。

正如你所看見的,大約有二分之一左右裡面含有有”googlology”的blog頁面被Google引得,裡面含有有”googlology”的教育類站點頁面中,約有37百分之百被Google引得,大致相似的,主流電視臺站點類頁面中,29百分之百被引得,News, Information and Directories類頁面中約略是45百分之百,junk站點類中,例如Geocities和其它大致相似的站點,約有8百分之百被引得。

那一些被Google數值庫所漏下的頁面,看來多是那一些用到該專門用語比較早的頁面,例如2002年十二月曾經,在那邊我們發覺多達153個裡面含有有該詞的教育類站點頁面(他們援用到Webmaster World對該專門用語的運用),他們沒有被Google引得。一樣,也有很多在二月到三月之間的blog頁面(他們援用到Google Village站點)和很多Microdoc News頁面掄有被Google引得。我們還發如今在CNetZDNet和大致相似BBC、Siemens和其它電視臺類站點的裡面含有有該詞的頁面沒有被列在Google中。

依據這些個以及我們對數值的進一步剖析,要是我們實在把對”googlology”這個詞的剖析的最後結果應用到全部的其它詞去,那末,我們能獲得這麼一點嘗試性的論斷:

 

 

  • Google並不引得互聯網上的每一個頁面;
  • Google傾向於拋下(或不引得)那一些迄今三到六個月曾經或更早的頁面;
  • Google傾向於裡面含有blogs、educational以及news and information類站點最新頁面(在三個月內開創的頁面)中的98百分之百;
  • Google普通會引得主流電視臺站點在近來三個月內開創的頁面中的80百分之百;
  • Google通例會疏忽那一些信息量很少的某些類型的站點的頁面;
     

在網絡上有2,199張裡面含有有”googlology”的頁面,Google僅只列出了624張,而Google宣稱有655張。Google一般拋下較老的頁面,它看中去是挑選性的,譬如”googlology”,3個月、6個月還是更早曾經的頁面中,還是有一張或更多的頁面被引得,而同時,同期的裡面含有其它該詞的其它頁面被拋下了。

固然我們不擁有十分正規的對該詞作研討,不過仿佛好象是在所給的三個月的一段時間內,首次裡面含有有”googlology”的頁面被Google長時期的獲留,而同一段時間的其它裡面含有有”googlology”的頁面被逐站的拋下。因為這個最後結果是,我們能在Webmaster World找到運用”googlology”的頁面,尤其是它首次運用的頁面,不過並不可以發如今接下來的10、11、十二月中全部的裡面含有”googlology”的頁面。我們能找到Google Village和Microdoc News中裡面含有”googlology”的頁面,但並不是全部的事情狀況,在一月到3詜聕這段時間,在Google數值庫中,我們站點自個兒的頁面僅顯露出來一次,其它的所有都掄被數值庫收進。

用啥子描畫來比擬Google搜索引擎網站是啥子樣的呢?我們想Google像是一束很大的搜索的光焰,很像地球上看見的日頭的潔淨。它的光指向它所效用到的地方,and what else is going on, 例如同互聯網上的大多數靜態局部,Google引得拋下援用到他們那邊的援用。靜態的意思是,那一些頁面掄有被更新,還是作不論什麼的變化,或許是沒有被私人搜索到。顯露出來在Google的數值庫中的,並沒想到味著它老是在那邊。仿佛好象是Google數值庫次數多的將一點頁面刨除。Google所引得的30億或更多的頁面看中去是互聯網上最為關緊的30億個頁面。Google所拋下的,是那一些掄有被更新還是常被用到的頁面,就像我那一些六個月曾經的老文章。