搜索引擎網站怎麼樣應對『暗網』

　　網海沒有邊際，回頭是岸。

　　擺在搜索引擎網站前面的困難的問題眾多，剪不斷，理還亂，但有一個怎麼繞也繞不開——暗網(hidden web)。互聯網上每日都在誕生沒有窮盡無盡的新信息，這些個信息存在的形式也沒有窮盡無盡——書契、聲響、圖像、交互數值，還是別的。

　　面臨信息存在狀況的多元化，內部實質意義的海量化，人的總稱很著急懮慮，總想探索追求冰山下面不為人知的世界，這便是技術的偉大之處。

　　最近，因為百度阿拉丁的熱炒，暗網問題再度被大家關心注視。業內之人也由此陷於一個誤區，其實，早在1994年，Jill Ellsworth就著手提到invisible Web這個詞，暗網自搜索引擎網站誕生的那一天起，就一直是個問題，恐怕也終將得不到100百分之百的解決。

　　暗網有多暗?

　　既是是暗網，到盡頭它有多大的容積，很難有一個明確的數碼。有人說，如今可搜索的網頁佔到達37百分之百;有人說有100億個不重復的表單;還有人說是淺層www資源的500倍。爭辯這個問題意義半大，相比較淺層www(即Surface Web，靜態頁面、超鏈接、文件)，讓我們來看看BrightPlanet企業之前宣布的一個技術藍皮書(《The Deep Web-Surfacing the Hidden Value》)的論斷：

　　1、Deep Web裡面含有7500TB的信息，而Surface Web裡面含有的信息容積只有19TB。

　　2、Deep Web裡面含有5500億獨立文檔，想對應的Surface Web只裡面含有10億個。

　　3、現存的Deep Web站點估計超過100000個。

　　4、60個最大Deep Web站點就已裡面含有750TB信息，超過Surface Web所裡面含有信息的40倍。

　　5、均勻看，Deep Web站點的月過訪量比Surface Web站點凌駕50百分之百，況且與Surface Web站點相形有更多的鏈接。可是那一些典型的大型Deep Web站點在互聯網搜索領域卻不知名。

　　6、Deep Web是互聯網新信息提高的最大出處。

　　7、Deep Web站點在信息內部實質意義范圍上比普通Surface Web站點更專更深。

　　8、Deep Web裡面含有的管用高質內部實質意義總量至少是Surface Web的1000到2000倍。

　　9、超過二分之一的Deep Web內部實質意義都保留在專業領域的數值庫中。

　　10、95百分之百的Deep Web信息都是面向公共過訪的，而不是需求付費還是訂閱的。

　　簡單的說，暗網比你假想中的還要極大，還要未知，但他們的應用卻比你假想中的要多。因為這個，我們可以獲得一個論斷——盡管網海沒有邊際，但考求暗網對人的總稱更鎮靜沈著地把握信息是極有意義的。

　　到現在為止主流的對付策略

　　之前我曾留意到陳佼的一篇針對阿拉丁的文章(深化解析百度阿拉丁平臺)，那裡面提到達搜索引擎網站對暗網的對付策略。其實，針對暗網的策略十分復雜，簡直可以進展多個交錯學科來研討，舉個簡單的例子，微軟亞洲研討院一直在研討關於聲響訊息的處置和檢索，這項研討耗時積年，一直未有飛躍性發展，即使這麼，它也只是應對暗網的一小局部。

　　飯要一口一口的吃。在我看來，現時要解決的所說的暗網，主要是針對的是Dynamic content(動態內部實質意義)，這也是各大搜索引擎網站如今辦公的重中之重。對此，主要有兩大策略——主動策略和不主動策略。

　　這就好比有一座未知的寶庫，如今想要獲得它，一種辦法是拿著藏寶圖，將其找到，發掘出來，這就是所說的主動;另一種辦法是讓寶庫自個兒出現，等待研發。

　　主動策略：優化數值剖析，優化算法，從碉堡的外部攻破。

　　Google的Jayant Madhavan在VLDB 2008會展上作了題為Google’s Deep-Web Crawl的報告陳述，那裡面周密論述了Google的一點策略，其中心就是信息模型板(informative templates)。實際上了解起來很簡單，可以叫做渾水摸魚，多摸幾次，反反復復總結概括，就能上限近乎曉得摸到的是魚仍然石頭。

　　2008奥運時期，百度也以前針對數量多有關網站關鍵詞施行處置優化，整合各種狀況的內部實質意義信息，獲得了美好的效果。

　　不主動策略：讓網站方參加到暗網的顯露中來，主動洗白。

　　這是一種迂回的策略。陳佼在博文中提到的One box、Subscribed Link、Search Monkey等都歸屬這種，它是經過開放的API准許用戶主動將結構化的數值提交處理上來。百度揭曉的搜索開放平臺也是那裡面的前驅之一。

　　這種策略很取巧，但它不只是個天真的技術問題，更是個博弈問題。據我所知，韓國的眾多互聯網企業都不接受google的爬行動物，眾多白報紙網站也對google的抓取痛心疾首，並不要提主動輔佐了。

　　相比較解析搜索巨頭對付暗網的策略

　　在做相比較解析之前，有一點兒我想表現：在對付暗網方面，世界各地的搜索引擎網站幾乎是同時開始走的，也許走的路子有一點差別，但殊途同歸，這一點兒特別值當肯定。

　　Google：強橫不講理而專斷

　　假如你仔細解讀一下子Google’s Deep-Web Crawl報告陳述便會清楚，Google依舊以其引以為傲的算法來針對暗網，已經出來的產品如onebox、Subscribed Links，乃至於Google base等。

　　Google很懂技術，但樹大招風，假如不知道均衡各方好處，牛人容易寡助。譬如Google base這個產品，架子非常大，但生活習性鏈太短，到現在為止的進展看來並悲觀。我倒是提議Google思索問題從各處買進一下子如今正火的Wolfram Alpha，從實質上來說，這也是一個應對

　　暗網的產品。

　　Yahoo：簡單的事物復雜化，Search Monkey是Yahoo應對暗網的拳頭，很開放，很自由，很有顛覆感，但與Google習性於使用技術目光來解決問題同樣，

　　Yahoo要面臨的是無序和沒秩序的有可能。之前與業內朋友交流，大家有一個共識，Yahoo是一家十分勇猛無顧忌的企業，領有無數牛人，但它每常將簡單的問題復雜化，導致失控。在Search Monkey中，Yahoo開放了圖片、視頻文件、游戲等數量多內部實質意義，展出的職權范圍都交付用戶表決，也是基於這一思惟。

　　百度：伶俐而小心

　　百度的搜索開放平臺很趣味，它有3個十分冒尖的獨特的地方：

　　其一，開放卻又限止。思惟上是開放的，面向的也是全部的網站，但在數值內部實質意義和網站的天資上，它又有嚴明的審查核定，以保障搜索體驗認識。在哲學中有一句話說：自由不是完全的，而是相對的。百度的中庸在搜索開放平臺上反映得痛快淋漓。

　　其二，重視好處的平衡。和Google、Yahoo不一樣，百度的策略重視生態協調——搜索引擎網站、網站、用戶。它的機制是：百度為用戶供給更好的搜索體驗認識，把控資源，讓更優質的網站內部實質意義獲得展出，而網站從其中掠奪品規定價格值和流量的提高。

　　其三，小心看待一切。我和一點站長就搜索開放平臺施行過交流，在提交處理審查核定的數值中，百度偏好確認性信息和數碼性信息，而對一點摸棱兩可、非確認性書契信息幾乎都拒之門外，從其中可以看出百度搜索開放平臺的小心。

　　三大巨頭都是將搜索引擎網站從可讀變為可寫，但不一樣的思惟形式表決了不一樣的處置形式。無論怎麼樣，在對付暗網的戰爭中，信息的運用者纔是最大的贏家。

　　最終送一句話給著力於打破暗網的搜索業界朋友們：人的總稱若能妥善地到處尋找資料，真的已經變更世界了。

The Blog

SEO諮詢: (852) 27208908