前言:本站為你精心整理了農業經濟智能信息探究范文,希望能為你的創作提供參考價值,我們的客服老師可以幫助你提供個性化的參考范文,歡迎咨詢。
一、研究意義
在農業經濟發展領域,信息已成為一個不可或缺的因素,成為推動農業經濟發展的主要動力,農村信息化水平每增加%l就可以導致產出平均增加0•735%。[1]貴州省通過前期農業經濟信息化建設,已建立了完善的農業經濟數據采集體系,積累了大量的數據,這些數據對于農業政策的制定,農業狀況的監控,農業發展的引導,市場商機的把握,經濟問題的研究來說是一筆無價的財富。但是,限于前期OLTP(聯機事務處理)系統的固有局限性,無法有效利用這些豐富寶貴的數據。系統雖然對農業經濟數據進行了獲取,卻未進行有效整合,提供的信息服務仍停留在基于網站市場信息的簡單與查詢階段,人們面對的是眼花繚亂的數據,無法獲取真正想得到的信息。而通過貴州省農業經濟智能信息系統的建設,可以提供面向OLAP(聯機分析)的服務,并進一步對數據進行挖掘,實現對貴州省農業經濟數據真正有效地利用,完成從數據到信息再到知識的一個自動化過程,使得用戶得到經過智能化分析處理的有用信息。對比目前的農業經濟信息系統其具體有如下優點:
(一)數據的可靠性的確保
對于信息用戶來說,信息首要保證的是真實。否則,即便使用了再優秀的分析方法,也是“垃圾入垃圾出”。而農業經濟商業智能信息系統的建設確保了數據的正確性。首先,農業經濟商業智能信息系統的數據主要源于OLTP(聯機分析)系統,而OLTP的數據直接生成于業務處理時原始的數據,而非經過了處理加工了信息。其次結合技術手段,每一個通過ETL(抽取、轉換、加載)的數據都能回尋到其原始數據源,使得每一個來到數據倉庫的數據都有據可查,增加了數據的可信度。
(二)提供實時、多維分析服務
相比較OLTP系統,農業經濟智能系統能提供面向用戶的分析服務。原有信息系統只能基于固定周期向用戶推送分析報告,無法實現實時信息分析。例如政府決策者臨時對于某個農業經濟問題進行討論,需要相關的信息分析進行支持,原有的信息系統無法在短時間內提交用戶定制的信息分析,而智能信息系統可以提供基于web的實時的分析服務。其次,原有信息用戶對于信息只是被動地接受,無法根據自己感興趣的維度(dimension)觀察分析數據,而智能信息系統提供了多維分析聯機分析(OLAP)服務,信息用戶可以根據自己的需要動態更改分析維度,滿足定制分析的需要。
(三)提供基于歷史的數據分析
原有的系統,例如農經網系統,為了平衡系統效率,只能提供給用戶6-12個月的數據,之前的信息被閑置,而這些信息對于經濟分析,趨勢預測十分重要。農業經濟商業智能系統的一大優點就是通過對于歷史數據的清理整合,使得用戶能夠獲取長期(超過5年)的歷史數據,實現進行基于歷史的分析。
(四)面向不同的用戶
農業經濟信息的用戶范圍十分廣泛,從政府政策制定者到個體農戶、農產品經營者都需要農業經濟信息,但之前的分析服務用戶面狹窄,其分析只能事先設計、定期推送,局限了用戶群體。而農業智能信息系統卻可以提供面向不同用戶的差異服務。(五)開放性貴州省農業經濟智能系統提供了一個開放的平臺。首先,其預留了未來與其他數據倉庫整合的可能,例如與貴州省的氣象數據、地理信息數據的整合,以及通過web數據抓取整合web上的信息,例如其他省份的農業經濟數據,農業期貨數據等。而這些信息的加入,能大大擴充數據以及信息觀察的角度,滿足更多分析需求。
二、貴州省農業經濟智能信息系統的設計
(一)數據源特點
貴州省農業經濟智能信息系統的數據源主要基于貴州農經網系統,該系統以“天”為時間粒度記錄了貴州省各地區農產品商品價格,并基于地理區域、產品類別對數據進行了劃分。其信息數據采集站點遍布貴州省各地農產品市場,并通過在線系統每天上報,迄今已記錄了6年的貴州省農產品價格。以2006年為例,農經網系統共記錄了貴州省471個農產品市場的1830266條農產品價格記錄。基于農經網數據的真實性、充足性,十分適合作為數據倉庫的數據來源。
(二)需求分析
1.用戶劃分。通過實際調查分析,發現潛在信息用戶可以分為一般信息分析人員、相關商業用戶(農產品公司、個體農戶等)、農業政策決策者(相關政府部門)、農產品價格研究人員(高校、研究所等),各類用戶對于信息分析有不同的需求。例如對于信息分析粒度、信息分析的周期、是否需要預測都存在不同的要求。由于一般信息分析人員需要每周或每月提交文字型的分析報告,其需要的是詳細的數據分析支持功能,并以周或月為時間單位分析農產品走勢。而作為農業政策的決策者,其感興趣的是以年為時間單位的農產品經濟數據的分析,需要的是已經過統計處理的概括數據,更多使用圖表作為分析工具。作為研究人員,其對于長時間的數據(例如2003年到2009年)的統計分析和未來的信息預測更感興趣,并且也希望獲得概括性的統計數據、圖表。當然政策決策者對于數據挖掘也有需求。而對于商業用戶,他們對于基于時間段的不同地區農產品價格的對比、最新的數據實時分析,以及農產品價格走勢預測抱有興趣,而對于歷史數據分析興趣不大。
2.功能分析。綜上所屬,不同類型的用戶需求雖有差別,但是也存在共通點。通過需求分析,最終貴州省農業經濟智能信息系統計劃實現以下功能:
●對農產品價格數據進行旋轉、切片、切塊、向上綜合和向下鉆取等多維分析,以獲得多角度、多粒度歷史數據;
●進行多種農產品價格指數的計算;
●實現對于農產品價格的數據挖掘,并實現對于農產品價格的預測;
●實現分析數據的可視化展示平臺。
(三)后臺數據倉庫的概念設計
數據倉庫是貴州省農業經濟信息系統的核心,也是信息分析以及數據挖掘的基礎。數據倉庫的概念模型設計必須基于實際調查,結合實際信息分析需要以及數據源的結構,設計錯誤的數據倉庫模型將會導致整個智能信息系統的失敗,產生錯誤的信息。數據倉庫模型的概念設計主要涉及設計維度表、事實表以及維度表與事實表、維度表之間的關系。
1.關鍵維度
(1)地理維。地理維(Geographydimension)以“市場”為粒度,記錄了與農產品價格相關聯的貴州省地理信息,是數據倉庫的關鍵維度之一,也是數據分析中最常用到的維度,并且也是與其他事實表、維度表聯系最多的維度。其結構為:(主鍵:Geog-raphyKey;候選鍵:GeographyAlternatekey;地區名:GeographyDistrictName,縣、市名:GeographyCoun-tyName…)。其中GeographyKey為維度表主鍵,Ge-ographyAlternateKey為候選鍵,通過該字段可以回溯數據源,增加數據倉庫的可信度。該緯度在設計時考慮到了貴州省農業經濟實際情況,設計地區(例如黔西南地區)到縣、市(例如安龍)到市場(例如新橋農貿市場)的層次結構(hierarchy),而不直接套用通用的地理信息,否則無法滿足實際分析的需要。
(2)時間維。時間維(timedimension)是數據分析最常用到的維度,其結構為:(主鍵:Time-Key;年:year;月:Month;日:day;年中文名:Chinese-YearName;節日:DayOMfonth;特殊事件:SpecialEv-en;t本日對應月第幾天:DayOMfonth….)。其中年、月等的中文名屬性的設置是為了后期分析時便于展示,DayOfYear,DayOMfonth屬性的設置是為了便于實現農產品同期價格的對比計算。因為業務主題是時間序列的。農業經濟數據倉庫中時間維度以“天”為粒度記錄了時間描述信息。在設計時間維時必須考慮到后期數據分析以及數據挖掘的需要,而不是單純地從已有OLTP系統進行抽取,例如考慮到農產品價格波動與節假日關系很大,故在時間維設計時應加入“節假日指示”屬性,考慮到貴州為少數民族集聚區這一特點,在填充該屬性時候不但應記錄“春節”、“中秋”等較普通的節日,而且還應記錄“地戲節”、“三月三”等各個地區少數民族特有的節日。同樣考慮到特殊因素,例如“甲型H1N1型流感”對農產品價格的影響,應設置“特殊事件”屬性。最后,還應添加“節氣”,“季節”這兩個對于農產品價格關系較大的屬性。
(3)產品維度。產品維度以“產品”為粒度記錄了農產品信息,其結構為:(產品名:ProductName;產品子類別外鍵:ProductSubCategoryKey;單位:Uni;t漸變維度開始時間:StartDate;漸變維度結束時間:EndDate….)。農產品的產品緯度設計較為復雜,特別是結合貴州省的實際情況,一些農產品歸類與通用歸類不同,例如“菜籽”標準分類應該是“食用油”,但由于貴州省主要將菜籽用于副食品加工,故也可將其歸位“副食品”,這主要取決于最終用戶的分析角度,但也必須考慮未來與其他數據源的接口,過于特殊化的設計不利于與其他數據源的統一,不利于數據倉庫的擴充。產品維度表也是所有維度表中變化最頻繁的維度表,隨著時間推移不斷改變,屬于漸變維度(SCD,slowlychangingDimension)。例如“產品名稱”屬于1SCD(changing),對于歷史的產品名稱不做保存而直接更改。而“產地”屬性,由于后期數據分析對于歷史產地感興趣,故將其設置為2SCD(histori-cal),當進行數據加載時不更新原有數據信息,而是新添加一行以保持歷史數據。StartDate與EndDate相結合標示目前數據行是否失效,或者說其是否是歷史數據。
(4)信息提供者維。它主要記錄了各個市場的信息提供者的相關信息,該維度與地理維相鏈接。主要用于支持后期對信息提供點貢獻度的分析,與績效考核的計算。
2.事實表的分析設計
相對而言事實表的設計較為簡單,但是由于事實表的數據量遠遠大于維度表(僅2006年數據就達到百萬級),對于事實表屬性的數據類型設計顯得十分重要,好的設計可以大大緩解數據倉庫的爆炸性增長情況。根據業務主題的特點,分別用與之對應的度量值對其事實表進行填充。
3.農產品交易事實表(FactTrading)
主要記錄了農產品的價格信息,來源于多個數據庫,對于其的數據清理與轉換工作量較大,由于存在多數據源,原有的價格記錄主鍵(OriginalID)出現了重復,失去了唯一標示的意義。跨越時間為2003—2009年。其結構為:(產品單價:UnitPrice;地理維外鍵:GeographyKey;產品維外鍵:ProductKey;信息提供者維外鍵:InformationProviderKey;時間維外鍵:TimeKey;原有價格記錄號:TradeOriginalId….)其中,地理維、時間維、產品維度等外鍵構成了事實表的聯合主鍵。
(四)數據倉庫總體結構設計
數據倉庫的設計常常采用的是星型模型和雪花模型。但應盡可能采用星型模型,這是由于維度表的作用是提供便利分析的角度,雪花模型雖然可以減少維度表空間,但增加了通過維度分析數據的難度,并使得數據倉庫結構變得更為復雜。[2]故在數據倉庫設計時,只在產品維(Productdimension)的設計上采用了雪花結構,這是由于產品維中包含了“類別屬性”,“子類別屬性”,“產品名”等通過字符描述的屬性,如果采用星型結構,以上屬性重復將過多,數據不一致可能性較大,故采用雪花結構避免這種情況的發生。如前文所述,農業經濟智能信息系統的一大優點就是其開放的結構,可以通過網絡數據抓取、接入新的數據源等方式獲得新的信息,構建新的事實表,例如上圖中的產品庫存事實表、氣象信息事實表、期貨交易事實表等。并且由于新的事實表與原有事實表可以共享維度,使得分析者可以在結合共同維度對不同的信息進行分析,例如結合農產品價格事實表數據與農產品庫存事實表數據以及氣象信息,并以時間和地理作為分析維度進行多維分析,能發現出這三類信息間的潛在關系,并以直觀分析報表形式展現。
三、貴州省農業經濟智能信息系統的初步利用
最終設施階段,首先基于上述數據倉庫模型設計對應ETL程序,導入相關的數據,并利用MDX作為多維數據查詢語言實現分析,并在SqlServer2008下AnalysisService進行部署,利用.net技術實現前臺的web展現,最終實現了貴州省農業經濟智能信息系統的實施,達到以下功能。
(一)多維分析功能的實現例如,圖2演示了通過結合地理緯、時間維對于多維數據進行切塊,然后對數據進行下鉆(drilldown)得到詳細信息,同時通過圖表進行同步展示,最終直觀的得到兩地區(畢節、銅仁)在對應時間段上對于農副產品的價格走勢對比。
(二)價格統計分析功能的實現在結合下鉆,上鉆,切塊等多維分析的同時,還可以根據已有的對農產品的分析方法,例如定基價格指數、同比指數、環比指數等對數據進行統計分析。
(三)KPIs功能的實現如需求分析中所述,農業政策決策者需要的是一種高度概括性的狀況信息,而不是繁瑣的數據,理想的狀況是通過對于狀態的一覽,就可以了解目前農產品價格是否出現了異常。通過對于關鍵業績指標(KeyPerformanceIndicators)的實現,可以很便捷地達到這一目標。例如,首先通過實際調查了解到,決策者認為農產品價格上漲或下跌某百分比值便認為出現了價格異常。在智能信息系統開發中結合MDX語言,編寫相應代碼,實現KPIs對應的報警功能,最后再實現對用戶友好的、直觀的前臺展現(十字形為異常,三角形為可接受,圓形為正常)。
(四)農產品價格預測功能的實現如前文所述,信息用戶不但對于已有歷史數據的分析感興趣,他們更想得到農產品價格等數據的未來走勢預測,而這正是數據挖掘的任務。數據挖掘指的是分析數據,使用自動化或半自動化的工具來挖掘隱含的模式,預測正是數據挖掘的一項重要的部分[3]。貴州省農業經濟智能信息系統中利用了相應的時序算法,利用智能信息系統內數據倉庫中時間序列數據集,結合連續的觀測值,進行一般的趨勢分析、周期性分析和噪聲過濾,得到對于農產品價格的趨勢預測。
四、小結
本文通過對貴州省農產品經濟數據的分析,結合不同類型用戶對于信息分析及預測的實際需要,利用數據倉庫及數據挖掘技術,建立了相應的貴州省農業經濟智能信息系統。實現了提高已有農產品經濟數據的內在價值,發掘隱藏在數據背后知識的目標。為貴州省農業經濟研究、農業政策決策、農產品商業開發提供了有力的支持,并獲得了良好的使用效果。