淺顯的議論搜索引擎網站技術的不容易解決的地方

搜索引擎網站的不容易解決的地方涵蓋如下所述幾點：

1) 是否支持並發的爬取數值，假如要並發，要保障全部搜集器能合作搜集，不會顯露出來重復搜集的事情狀況.

2) 搜集的數值還要有一個排重的過程. 只消搜集一個網站更新的數值

3) 對於需求cookie數值的網頁怎麼樣搜集的問題,局部網站需求經過cookie數值登陸網站

4) 半自動經過辨別碼的證驗

5) 一點網站對於密布過訪的煩請會不接受，技術上也要施行處置

6) 對於一點特別網頁的搜集問題, 譬如flash網頁，一點游戲網頁等，眾多網站會讓搜集手續陷於那裡面，搜集數萬失效數值，顯然是耗費了搜集手續的精神力

7) 大數值量的儲存也是個不容易解決的地方，據聞Google的儲存是自個兒研發的架構，沒用不論什麼的數值庫，由於數值庫的查問速率仍然有一定虧損. 可以認為合適而使用數值塊的標准樣式，而後經過散列表的標准樣式連署.

以上主要列出的是後臺搜集器的有關技術不容易解決的地方，在前臺檢索、查問速率等方面仍有很多不容易解決的地方.

The Blog