搜索引擎系統預處理:網頁凈化與元數據提取

網頁凈化與消重是大規模搜索引擎系統預處理環節的重要組成部分。

網頁凈化(noise reduction):識別和清除網頁內的噪聲內容(如廣告、版權信息等),並提取網頁 主題以及與主題相關的內容。

網頁消重 (replicas or nearreplicas detection):去除所搜集網頁集合中主題內容重復的網頁。

在主題搜索領域,大量的廣告、導航條等噪聲內容會導致主題漂移(topicdrift)。這說明傳統的主題搜索算法中以網頁為粒度構造的web圖不夠準確,必須深入到網頁內部將處理單元的粒度縮小,才能提高內容分析的準確性。在(Chakrabarti et al. 2001)中提出瞭一套解決方法,首先講網頁表示為一顆DOM數結構並找到與主題一致性較高的子樹,然後對這些子樹做特別的處理,從而提高主題的提煉的效果。

在web信息檢索領域,檢索結果的相關性和檢索的速度是評價一個web檢索系統的兩個指標。如果不去除原始網頁中的噪聲內容,檢索系統必然對噪聲內容也建立索引,從而導致僅僅因為查詢詞在某張網頁的噪聲內容中出現,而把該網頁作為結果返回,而網頁的主題內容可能和這個查詢詞完全無關。可以看出,噪聲內容不僅使索引結構的規模變大,而且還會導致瞭檢索系統準確性的下降。針對這個問題(Lin et al. 2002)中提出瞭一個去除網頁中噪聲內容的方法,該方法首先依據標簽構造網頁的標簽樹,從而依據標簽將網頁規劃為相互嵌套的內容塊;然後對於使用同一個模塊做出的網頁集。找出在該網頁中多次出現的內容,作為沉餘內容,而在該網頁集中出現次數較少的內容快就是有效信息塊。實驗證明該方法是有效的,但該方法必須局限於同一個模版的網頁集,而web上的網頁模版不計其數,該方法顯然不夠通用。

在網頁分類領域,由於噪聲內容與主題無關,訓練集中的噪聲內容會導致各個類別的特征不夠明顯,而待分類網頁中的噪聲內容則會導致改網頁類別不明顯,因而影響瞭網頁自動分類的效果。(Yang 1995,Li et al. 2002)中提出瞭通過去掉網頁中的噪聲內容來提高網頁分類質量的方法。

在網頁信息提取領域,自動識別漠視的方法必須要從整個網頁中提取模式,而不是隻針對主題內容提取。因此,在凈化後的網頁上作信息提取不僅可以排除噪聲信息對信息提取的幹擾,提高信息提取的準確性,而且可以使得網頁中的結構簡單化,提高信息提取的效率。

噪聲內容對基於網頁的研究工作室普遍而嚴重的,雖然各個領域采用的方法各不相同,但處理的目的都是為瞭去除網頁的噪聲內容,得到真正的主題內容。

隨著web上的研究與應用的發展,單純的網頁內容已經不能滿足需求,網頁元數據得到越來越多的廣泛使用。在web檢索領域,單純依賴關鍵詞匹配的檢索手段過於單一。內容類別、摘要等元數據信息的合理使用,不僅使用戶可以從不同的角度進行查詢,而且也使得查詢的準確性得到提高。而主題搜索、個性化信息服務以及數字圖書館也都強烈的依賴資源的元數據信息。因此,準確且高效的提取必要的元數據是web上各個研究領域面臨的重要問題。

在元數據和主題內容的提取方法上,可以從信息提取領域的研究成果(特別是從HTML網頁中提取語義信息)中得到很多啟發。針對從HTML網頁中提取語義信息,早期的方法是:針對某一類具體網頁,人工提取該類的網頁中的內容組織模式。然後,信息提取系統根據該模式從屬於該類的網頁中提取相應的內容(Hammer et al. 1997,Ashish et al. 1997)。對元數據和主題內容的提取可以采用同樣的辦法,但這些方法有一個共同的局限性,那就是需要人工提取內容組織模式,這對於內容組織繁多的web來說顯然是不適用的。因此,在(Wemble et al. 1999)中提出瞭5條啟發式的規則,綜合利用這5條規則系統可以自動地發現網頁中各個主題信息塊(chunk)的邊界。(Yang et al. 2001)提出瞭一種基於視覺相似性來自動分析網頁語義結構的方法,該方法首先比較HTML網頁內容的視覺相似性,然後使用一個模式發現算法來確定這些視覺相似性的內容最有可能的組織模式,最後按照該模式將內容重新組合。

HTML_DocView模型:

包括:網頁識別、網頁類型、內容類別、標題、關鍵詞、摘要、正文、相關鏈接等要素。其中正文和相關鏈接屬於網頁的內容數據,而其他6項則屬於網頁的元數據。

網頁類型:根據網頁內容的表現形式進行劃分,一般劃分為三類,既 主題網頁(topic)、Hub網頁(hub)、圖片網頁(pic)。

內容類別:是從語義上對網頁的內容進行分類,它是計算機獲取網頁語義信息的一個直接手段。

標題、關鍵詞、摘要:是概括描述web文檔內容的重要元數據。

正文:是原始網頁中真正概括描述主題的部分。

來源:草根網() – 互聯網界的讀者文摘