搜索引擎網站的不容易解決的地方涵蓋如下所述幾點:
1) 是否支持並發的爬取數值,假如要並發,要保障全部搜集器能合作搜集,不會顯露出來重復搜集的事情狀況.
2) 搜集的數值還要有一個排重的過程. 只消搜集一個網站更新的數值
3) 對於需求cookie數值的網頁怎麼樣搜集的問題,局部網站需求經過cookie數值登陸網站
4) 半自動經過辨別碼的證驗
5) 一點網站對於密布過訪的煩請會不接受,技術上也要施行處置
6) 對於一點特別網頁的搜集問題, 譬如flash網頁,一點游戲網頁等,眾多網站會讓搜集手續陷於那裡面,搜集數萬失效數值,顯然是耗費了搜集手續的精神力
7) 大數值量的儲存也是個不容易解決的地方,據聞Google的儲存是自個兒研發的架構,沒用不論什麼的數值庫,由於數值庫的查問速率仍然有一定虧損. 可以認為合適而使用數值塊的標准樣式,而後經過散列表的標准樣式連署.
以上主要列出的是後臺搜集器的有關技術不容易解決的地方,在前臺檢索、查問速率等方面仍有很多不容易解決的地方.