前言:本站為你精心整理了農業科技搜索引擎原理分析范文,希望能為你的創作提供參考價值,我們的客服老師可以幫助你提供個性化的參考范文,歡迎咨詢。
1系統設計與關鍵技術
1.1旱區農業領域本體構建
領域本體為搜索引擎提供知識組織,是基于本體的旱區農業垂直搜索引擎的核心模塊。建立針對西北旱區的農業領域本體,可以提高搜索引擎的專業性和查準率。農業領域本體庫的建立分為創建領域術語集、創建領域本體和本體存儲等模塊。本文使用基于包裝器的信息抽取技術,從相關網站抽取與西北旱區農業相關的論文題目、摘要和關鍵詞作為領域語料,經過分詞和篩選得到領域術語,利用參考文獻中提出的面向文本的知識發現技術來構建領域本體的方法并對其加以改進,設計了領域本體創建方法。步驟如下:Step1從網絡中抽取相關論文,通過分詞和篩選得到領域術語集合。Step2運用方法對領域術語集進行領域相關度判斷,篩選出相關度較高的術語,從而得到領域概念集合。Step3對所得到的領域概念進行基于共現的關聯分析。Step3.1基于共現分析理論來計算兩兩領域概念的共現頻次,得到共現矩陣。Step3.2利用Jaccard系數來計算領域概念間的相關度,得到領域概念的相關矩陣。Step3.根據領域概念的相關矩陣,利用Cosine相似度求出每兩個領域概念的相似度,從而得到相似度矩陣。Step4結合傳統凝聚層次聚類算法和K-means算法,使用基于K-means的層次聚類算法發現領域概念間關系。Step5構建農業領域本體并存儲在關系數據庫MySQL中。
1.2信息采集和過濾
旱區農業垂直搜索引擎的應用是面向西北旱區農業,需要采集旱區農業相關信息,過濾掉無關信息。領域相關信息過濾是保證搜索準確度的關鍵因素。為了保證采集的網頁信息和西北旱區農業緊密相關,本文采用主題蜘蛛和本體結合的方法按照鏈接過濾、信息獲取、頁面分析和主題相關性,判定4個部分從網絡中采集并過濾西北旱區農業信息,處理流程如圖2所示。首先,獲取URL地址并過濾掉一些無效和重復的鏈接;其次,下載有效URL對應的網頁,對網頁內容進行解析,采用分析DOM樹的信息抽取方法,清理無關Html標記,獲取網頁正文和新的URL;再次,對網頁正文進行特征詞提取;最后,進行基于本體的網頁主題相關度判定,若網頁與西北旱區農業主題關,則對該網頁構建索引,否則拋棄。對于新的URL,則跳轉到URL鏈接過濾步驟,循環進行信息采集和過濾。
由于主題相關性判定部分是決定網頁信息采集質量的關鍵因素,因此本部分著重介紹主題相關性判定算法。目前,頁面與主題相關性判定主要有5類方法,即根據元數據的判定、根據擴展元數據的判定、根據鏈接分析的判定、根據頁面內容語義判定和基于特征詞的向量空間模型算法。本文采用基于特征詞的向量空間模型算法,但是這種方法已被證實精確度不夠高,因而結合旱區農業領域本體對該算法進行改進,提高采集網頁信息的正確率。利用領域本體概念及概念間結構關系對特征詞進行語義豐富,判定網頁與主題的相關性,從而在一定程度上實現了網頁與主題在語義層面上的相關性判定。算法描述如下:Step1信息采集之前,對西北旱區農業相關的網頁正文提取關鍵詞,通過學習獲取西北旱區農業主題的特征詞集合其中,ωi表示特征詞αi在主題特征向量中的權值。Step2運用本體概念間的關系獲取特征詞集合中每個特征詞αi上位詞、同位詞和下位詞,并存儲在數組Ti中。Step3對采集到網頁P進行分詞,對每個名詞s進行判斷。若s在數組Ti中,則將s替換為αi;然后,統計αi對應的“信息項頻率”tf和“文檔頻率”df來表示每個信息項的分布權重,并運用TF*IDF算法。
1.3信息檢索
用戶檢索接口是旱區農業垂直搜索引擎與用戶交互的關鍵,用戶的查詢請求往往難以通過幾個關鍵詞表達。因而,本文采用查詢擴展技術來提高查全率,依據相關度的高低對結果進行排序,并根據本體的上下位關系向用戶推薦相關詞。
1.3.1查詢擴展
一般的檢索方法是通過關鍵字進行語法上的匹配,從而丟失了關鍵字的語義信息。因此需要對關鍵詞進行擴展查詢。本研究利用農業領域本體良好的概念層次結構進行邏輯推理,對用戶的檢索進行上位、平行和下位3種模式的查詢擴展。具體查詢擴展步驟如下:Step1對用戶輸入的查詢詞進行分詞處理,得到有意義的查詢關鍵詞。Step2基于農業領域本體的關鍵詞擴展。Step2.1使用關鍵詞在本體庫中進行匹配查詢,通過匹配查詢得到一個概念集合,若沒有得到匹配結果,進入Step3。Step2.2使用概念集合中的每一個概念對本體庫中的三元組進行遍歷,得到對應的上位、下位和平行領域概念,把得到的概念放入關鍵詞集合。Step3所有的關鍵詞進入索引庫進行搜索查找,得到查詢結果。
1.3.2結果排序
查詢結果需要按照相關程度形成由高到低的有序隊列,提高查詢的準確性和效率。傳統的網頁排序算法是計算網頁和關鍵詞的匹配程度,由于本文對用戶關鍵詞進行擴展查詢,因此初始關鍵詞和擴展關鍵詞之間的相關度對結果排序也會造成影響。網頁與關鍵詞的匹配程度可以利用網頁和關鍵詞的相關度進行綜合運算;初始關鍵詞和擴展關鍵詞的相關程度就是不同領域概念間的關聯程度,可以通過領域概念的相似度來進行計算。本文將上述兩個因素各賦予50%的權重進行計算,實現了查詢結果的排序。
1.3.3相關詞推薦
由于自然語言和計算機系統在解析語義上有著巨大差異,雖然進行了查詢擴展,用戶仍有可能對查詢結果不滿意。為了提高用戶二次檢索結果的質量,本文向用戶推薦搜索相關詞,通用的搜索引擎相關詞推薦往往是利用信息聚類、同義詞的識別和挖掘技術向用戶推薦相似度較高的詞語。本文結合本體的上下位關系分別向用戶推薦上位詞、同位詞、下位詞和相關詞等4種不同模式的相關搜索。
2系統試驗與分析
2.1系統試驗
基于以上研究,本文構建了基于本體的旱區農業垂直搜索引擎平臺,從萬方數據知識服務平臺獲取2007-2011年5年內2036篇旱區農業相關論文的關鍵詞和摘要作為領域語料,進行農業術語的分詞和清洗,通過共現分析和聚類得到農業領域本體;運用垂直搜索引擎的原理進行改造,將本體作為網頁采集過濾、查詢擴展、結果排序和相關詞推薦的標準。通過采集和過濾,對7823個農業網頁構建了索引和基于本體的旱區農業垂直搜索引擎。如圖3所示為基于本體的旱區農業垂直搜索引擎的某個搜索界面。該平臺集成了農業領域本體的構建、Web網絡信息的獲取過濾和基于本體的農業信息搜索等功能。
2.2系統分析
查準率和查全率是評價傳統的搜索引擎的兩個重要參數:查準率是檢索出的相關記錄數與檢索出的網頁總數的比率;查全率是指檢索出的記錄數和網頁集中所有的相關網頁數目的比率。由于查全率通常不成問題且難以比較,因此在對本文構建的基于本體的旱區農業垂直搜索引擎進行性能測試時,選用查準率作為評價參數,分別使用“小麥”、“蘋果價格”和“農田灌溉技術”作為關鍵詞進行檢索,查準率如圖4所示。從圖3和表1可以發現,通用搜索引擎百度查準率最低,主要原因是由于很多商家用"蘋果"注冊了非農業商品的商標;農搜的查準率也相對遜色一些,因為除了西北干旱地區,其他地區也種植蘋果;基于本體的旱區農業垂直搜索引擎的搜索農業農業信息查準率最高。
3結語
1)本文在分析研究通用搜索引擎工作原理和本體論相關技術的基礎上,設計并實現了基于本體的旱區農業垂直搜索引擎模型。將本體的相關技術應用到網絡信息的采集及過濾、查詢擴展、結果排序和相關關詞推薦等功能中,提高了農業信息檢索的查準率,優化了檢索結果,方便了西北旱區用戶檢索農業信息,推廣了農業科技。2)本文對基于本體的旱區農業垂直搜索引擎進行了初步研究和實驗,但農業本體庫中概念數目不多,農業信息的深度采集和信息增量更新等方面沒有涉及。今后可以考慮在動態頁面和異構信息的信息采集、信息增量更新和索引策略等方面進行研究。
作者:王超李書琴肖紅單位:西北農林科技大學