淺析網絡教育搜索引擎的智能化排序研究

  排序算法是現代搜索引擎的重要技術之一。本文根據網絡教育資源的特色以及網絡教育中學生的學習行為的特點提出瞭一種排序方法,即利用智能代理技術通過對學生學習行為的個人興趣模型的構建,以使搜索更為智能化和個性化。

  搜索引擎的排序算法就是當用戶輸入查詢關鍵詞後,迅速在索引庫中檢索出文檔,並將文檔按照一定的規則進行合理排序,以使用戶需要的文檔盡可能排在前面幾頁,以便用戶能快速查詢到自己需要的信息。

  對於基於關鍵詞檢索的搜索引擎,通過Robot收集並索引的信息資源量非常龐大,比如Google可以搜索的網頁高達33億頁。當用戶進行搜索時,系統往往回返回數量巨大的檢索結果,增加用戶的負擔,也降低瞭搜索引擎的效率,因此排序算法研究在搜索引擎中占有一種核心的地位。

  一、現代搜索引擎的排序技術

  1.1傳統搜索引擎的排序技術

  傳統搜索引擎的排序算法是對提取的每個關鍵詞賦予一個權值,表示該網頁與關鍵詞之間的相關程度,不同的搜索引擎在計算權值時使用瞭不同的方法,但它們都以關鍵詞在網頁中出現的位置和頻率為基本依據:

  1、關鍵詞出現在標題中的網頁可能比隻出現在其它地方的網頁更符合要求;

  2、關鍵詞出現在網頁的前面可能比隻出現在網頁的後面更符合要求;

  3、同一個關鍵詞的出現多次的網頁又可能比隻出現一兩次的網頁更符合要求;

  把這些因素綜合起來考慮便可得出一個計算關鍵詞權值的公式。

  然而這種排序算法卻有其局限性,由於網絡資源的數量巨大,權值相同的兩個網頁質量卻可能相差很遠,而且很多網頁設計者為瞭使網頁能排在檢索結果的前面,在其頁面上堆砌關鍵詞,或在重要的位置放置和網頁內容無關卻很流行的詞匯,以達到增加瀏覽量的結果。

  1.2現代搜索引擎的排序技術

  現代搜索引擎為瞭達到較好的檢索結果都使用新的基於超鏈分析的排序技術。其中以L.Page等提出的PageRank最為經典。PageRank算法由於在Google中得到成功的應用而被美國《時代》雜志評為1999年度十大網絡技術之一。

  1、PageRank算法

  PageRank使利用網絡自身的超鏈接結構給所有的網頁確定一個重要性的等級數[1],當從網頁A鏈接到網頁B時,就認為網頁A投瞭網頁B一票,從而增加瞭網頁B的重要性,最後根據網頁的得票數評定其重要性,以此來幫助實現排序算法的優化。同時PageRank還要分析為其投票的網頁的重要性,重要的網頁所投之票有助於增強其他網頁的重要性,也就是說網頁的重要性決定著同時也依賴於其他網頁的重要性,而這個重要性的量化指標就叫PageRank值。

  2、算法的實現

  當搜索引擎接受到用戶的關鍵詞提問後,對提問式進行分析並從索引庫中找到和搜索關鍵詞匹配的所有網頁信息,然後通過排序系統對網頁進行相關性排序。

  3、PageRank算法的發展

  現在搜索引擎一般采用基於網頁內容分析和基於超鏈分析相結合的方法進行相關度分析,也就是排序系統將網頁的PageRank值與文檔分詞後的信息以及鏈接文件中的網頁描述信息相結合起來確定檢索結果排序的權值,這樣就能客觀地對網頁進行排序,從而極大限度地保障搜索出來的結果與用戶的查詢相一致。

  二、網絡教育資源的特色對搜索引擎的要求

  網絡教育是建立在互聯網上的,但卻又不同於互聯網,主要表現在教育資源的特點和學生的行為方式上。

  2.1網絡教育資源的特點[2]

  同互聯網上的信息一樣,網絡教育資源在數量上也是巨大的。但是,不同的網絡教育資源分佈雖廣,但其內容之間的關聯度和穩定性卻是很強的,而且具有良好的可分類性。

  2.2學生學習行為的特點:

  網絡教育中的學生獲取知識的主要來源是從網絡中查詢自己需要的教育資源,但是學生不同於一般的網絡用戶,具有自己的特色:

  1、學生處於學習狀態,對專業知識瞭解少;

  2、學生對網絡的駕馭能力差,具有一定的盲目性;

  3、對於海量的信息資源,學生往往缺少耐性,不容易找到自己所需要的知識。

  2.3對搜索引擎的查詢排序要求

  1、搜索引擎要能從學生的查詢語言中提煉出學生的查詢要求,並能更加知識結構對查詢要求進行擴展聯想,對所需資源進行準確定位。

  2、搜索引擎要能根據每個學生的學習特點對其提供資源,要能建立學生的興趣檔案,確定學生的興趣范圍,以便更準確的將學生所需知識排在前面。

  三、一種基於興趣模型的排序方法研究

  3.1學科知識結構的構建

  在網絡教育環境中,學科領域知識的分類是相對穩定而且準確的,因此首先以此為基礎構建一個學科知識分類結構[3],這個結構是用分類樹的方法建立各種學科知識概念之間的上下層關系,上層概念是其所有下層概念共同屬性的概括,下層概念則是對上層概念的細化。整個概念樹形成一個整體,每個概念節點都可以以學科分類代碼為基礎進行概念編碼標識,並且每個概念都帶有一個集合,是該概念同義但不同描述元素組成的集合。集合可以根據需要進行添加、刪除、修改等操作。每個概念可與其它概念建立相應的關系,這種關系是不同於分類中上下層關系的橫向關系。

  3.2興趣模型的建立

  對於學生來說,其學習行為基本上是在本學科范圍之內的,因此其興趣范圍較一般用戶穩定,同時每個學生根據自身的學習特點不同,對知識概念以及概念之間的理解也不相同,這就構成瞭每個學生的個人興趣所在。因此可以通過智能代理系統根據學生所表現出的興趣趨向去構建學生的興趣模型。

  1、智能代理系統的研究

  1)智能代理的特點[4]

  智能代理技術是人工智能研究的新成果,是信息世界種的軟件機器人。它是代表用戶或其他程序,以主動方式完成一組操作的機動計算實體。智能代理的特點是具有不斷學習增長智能、適應信息和用戶興趣動態變化的能力,從而提供個性化的服務。

  2)網絡教育中的智能興趣代理

  智能興趣代理[5]是通過對學生學習行為的分析和研究,瞭解和掌握學生學習的情況、需求、能力、進度、興趣等,從而呈現符合個性的學習資源,使得每個學生身邊仿佛有瞭解針對自身特點進行教學的老師而獲得個性化的教學服務。其智能化的表現在於不斷學習,適應學生興趣動態變化的能力,從而實現查詢的個性化。