前言:想要寫出一篇令人眼前一亮的文章嗎?我們特意為您整理了5篇數據分析的方法范文,相信會為您的寫作帶來幫助,發現更多的寫作思路和靈感。
關鍵詞:函數性數據;修勻;函數性主成份分析;資產收益率
中圖分類號:F276.1
文獻標識碼:A
文章編號:1002―2848―2007(01)-0108―06
一、前 言
在經濟數據的傳統定量分析中,所分析的數據對象具有這樣的特征,即數據要么是時間序列數據,要么是橫截面數據。而實際中獲得的許多經濟數據,往往是在時間序列上取多個截面,再在這些截面上同時選取樣本觀測值所構成的樣本數據。計量經濟學中稱這樣的數據為“平行數據”(Panel Da―ta),也被翻譯成“面板數據”,或“縱向數據”(longitudinal data)。20多年來,許多學者研究分析了面板數據。事實上,關于面板數據的研究是計量經濟學理論方法的重要發展之一,它在解決數據樣本容量不足、估計難以度量的因素對經濟指標的影響,以及區分經濟變量的作用等方面,具有突出優點。但是,研究面板數據的計量模型,以線性結構描述變量之間的因果關系,且模型太過于依賴諸多的假設條件,使得方法的應用具有一定的局限性。為了彌補面板數據的計量模型分析方法及其它統計分析方法的缺陷,本文基于經濟數據的函數性特征,介紹一種從函數視角對經濟數據進行分析的全新方法一函數性數據分析(Functional Data Analysis,FDA)。
函數性數據分析的概念,始見于加拿大統計學家J.O.Ramsay和C.J.Dalzell于1991年發表的論文《函數性數據分析的一些工具》。6年后,J.O.Ramsay和B.w.Silverman(1997)將對函數性數據進行統計分析的已有理論和方法,總結在《函數性數據分析》一書中。但這本書偏重方法的理論介紹和數學推導,不利于統計基礎薄弱者使用。經過5年的努力,J.O.Ramsay和B.w.Silverman研究了一些函數性數據案例,并將其具體的分析過程編入他們于2002年出版的專著中。雖然國外在這方面已經做了許多研究,也取得了許多有價值的結果,但是有關函數性數據的研究依然處于起步階段,還有很多問題需要研究或進一步完善。另外,從方法應用的具體領域來看,很少涉及對經濟函數性數據的分析。就目前研究文獻來看,我國在此方面的研究尚是一片空白。
為填補我國在這方面研究的空白,本文從思想、方法等方面,對函數性數據分析進行系統介紹,并通過編寫計算機程序,率先利用該方法分析實際的經濟函數性數據。本文共分六部分,以下內容的安排為:數據的函數性特征及經濟函數性數據實例、從數據的函數性視角研究數據的意義、函數性數據分析的目標和步驟、函數性數據分析方法的經濟應用,最后一部分是本文的結論。
二、數據的函數性特征及經濟函數性數據實例
一般地說,多元數據分析(Multivariate Data A-nalysis,MDA)處理的對象,是刻畫所研究問題的多個統計指標(變量)在多次觀察中呈現出的數據,樣本數據具有離散且有限的特征。但是,現代的數據收集技術所收集的信息,不但包括傳統統計方法所處理的數據,還包括具有函數形式的過程所產生的數據,例如,數據自動收集系統等,稱具有這種特征的數據為函數性數據。
函數性數據的表現形式多種多樣,但就其本質來說,它們由函數構成。這些函數的幾何圖形可能是光滑的曲線(如人體在成年前的身體高度變化等),也可能是不光滑的曲線(如股票綜合指數等)。許多研究領域的樣本資料往往表現為函數形式,如考古學家挖掘的骨塊的形狀、按時間記錄的經濟數據、手寫時筆尖的運動軌跡、溫度的變化等。函數性數據分析(Functional Data Analysis,FDA)的基本原理是把觀測到的數據函數看作一個整體,而不僅僅是一串數字。函數指的是數據的內在結構,而不是它們直觀的外在表現形式。
實際中,之所以要從函數的視角對數據進行分析,是因為:(1)實際中,獲得數據的方式和技術日新月異、多種多樣,例如,越來越多的研究者可以通過數據的自動收集系統獲得大量的數據信息。更重要的是,原本用于工程技術分析的修勻(smoothing)和插值(interpolation)技術,可以由有限組的觀測數據產生出相應的函數表示。(2)盡管只有有限次的觀測數據可供利用,但有一些建模問題,將其納入到函數版本下進行考慮,會使分析更加全面、深刻。(3)在有些情況下,如果想利用有限組的數據估計函數或其導數,則分析從本質上來看就具有函數性的特征。(4)將平滑性引入到一個函數過程所產生的多元數據的處理中,對分析具有重要的意義。
在經濟分析中,融合時間序列和橫截面兩者的數據很常見,例如,多個國家、地區、行業或企業的多年的年度經濟總量、多家商業銀行歷年的資本結構、能源(如電力、煤炭、石油等)多年按月的消耗量、不同時間上多個省市的失業數據等。這些經濟數據往往呈現函數性特征,即每個個體對應著一個函數或曲線。在對經濟函數性數據進行分析時,將觀測到的數據(函數)看作一個整體,而不是個體觀測值的順序排列,這是函數性數據分析不同于傳統統計分析之根本所在。例如,表1是工商銀行、農業銀行、中國銀行、建設銀行1995年到2004年期間的資產收益率(ROA)數據。
利用基于MATLAB編寫的程序,對數據進行平滑處理(smoothing),并繪出四家國有銀行的資產收益率(ROA)的修勻曲線(見圖1)。由曲線圖可以看出,每個個體(銀行)對應著一條曲線(其數學表達式為函數),這是將多家銀行的歷年ROA數據記錄看作函數的根本理由,也是函數性數據分析的出發點。
三、從數據的函數性視角研究數據的意義
從函數的視角,對具有函數特征的經濟數據進行研究,會挖掘出更多的信息。例如,對函數性數據的平滑曲線展示,不但能夠診斷出擬合數據的可能數學模型,還能夠通過對光滑曲線求一階、或更高階的導數,來進一步探索數據的個體(橫截面)差異和動態變化規律。
圖2是四家銀行資產收益率的速度(一階導數)曲線,觀察發現:在1995年至2004年期間,農業
銀行、中國銀行及建設銀行的資產收益率的變化率,呈現出較強的周期性,其中尤以建設銀行的表現最為突出。加速度曲線圖顯示,四家銀行資產收益率的變化率的波動狀況不相同,轉折變化的時間差異也較大。這些情況一定程度表明,各家銀行的內部管理與經營機制,對市場信息的反應快慢程度各不相同。
四、函數性數據分析的目標和步驟
函數性數據分析的目標與傳統統計學分析的目標基本一樣,具體情況如下:
(一)以對進一步分析有利的方法來描述數據;
(二)為突出不同特征而對數據進行展示;
(三)研究數據類型的重要來源和數據之間的變化;
(四)利用輸入(自變量信息)來解釋輸出(因變量)的變化情況;
(五)對兩組或更多的某種類型的變量數據進行比較分析。
典型的FDA主要包括以下步驟:
第一步,原始數據的收集、整理和組織。假設我們考慮的自變量是一維的,記為t,一個的函數僅在離散抽樣值 處被觀測,而且這些ti可能等間隔分布,也可能不是。在函數性數據分析中,將這些離散的觀測值看作一個整體。
第二步,將離散數據轉換為函數形式。這是利用各次觀察的原始數據定義出一個函數x(t),它在某一區間上所有t處的值都被估算了出來。解決這個問題的基本方法是選定一組基函數 (t),k=O,…,K,并用基函數的線性組合給出函數x(t)的估計
第三步,多種形式的初步展示與概括統計量。概括統計量包括均值和方差函數、協方差與相關函數、交叉協方差(cross―covafiance)與交叉相關(cross―correlation)函數等。
第四步,為了使每一條曲線的顯著特征都在大體相同的自變量處(如月份、年份等)顯現出來,可能需要對函數進行排齊(regigtration),其目的是能夠區別對待垂直方向的振幅變化與水平方向的相變化。
第五步,對排齊后的函數數據進行探索性分析,如函數性主成份分析(FPCA)、函數性典型相關份析(FCCA)等。
第六步,建立模型。建立的模型可能是函數性線性模型,也可能是微分方程。
第七步,模型估計。
五、函數性數據分析方法的經濟應用
為了說明函數性數據分析方法的具體應用,同時出于使所繪圖形簡單明了,本文再次利用四家國有銀行的數據,對資產收益率進行更深入的分析。雖然此實例中個體數少,但并不妨礙對方法應用的系統描述與理解。
在對實際問題的經濟數據進行分析時,通常需要依照研究的目標編寫計算機程序。就目前的研究現狀來看,基于MATLAB或SPLUS等編寫的程序,如繪圖或綜合計算函數等,完全可以滿足分析的需要。本文首先基于MATLAB編寫程序,然后對四家國有銀行的資產收益率數據進行分析。
關于四家銀行資產收益率數據的函數(曲線)展示與初步分析,本文在前面已進行了描述,具體結果見圖1和圖2。概括資產收益率特征的統計量(均值函數和標準差函數)的曲線見圖3。
為了進一步探討典型函數所呈現的特征,本文利用函數性主成份分析,對四家銀行的資產收益率數據進行分析。一般來說,在函數性數據分析中,與多元統計中的某個主成份的權向量相對應的是主成份權函數(principal component weight function),記為 ,其中t在一個區間 中變化。第i個樣品(個體) 的主成份得分值為 ,第一主成份就是在 的約束條件下,尋求使主成份得分 的方差達到最大的權函數 ,即它是下面數學模型的最優解: 類似地,可以求得第j個主成份,其權函數毛(t)是下面數學模型的解:
為了得到光滑的主成份,一種方法是對由上述方法求出的主成份進行修勻,另一種方法是將修勻處理過程,融入到主成份的求解過程中。具體作法是將描述主成份曲線波動程度的粗糙因子納入到約柬條件中,形成帶懲罰的約束條件。利用粗糙懲罰法求第j個主成份的數學模型是其中 稱為修勻參數,用它可對粗糙懲罰項進行調整。
利用上述方法和基于MATLAB編寫的程序,對四家銀行進行函數性主成份分析(FPCA)。具體結果見圖4。第一個主成份(PCI)的解釋能力為85.5%,第二個主成份(Pc2)的解釋能力為13.1%,前兩個主成份的綜合解釋能力為98.6%。
為了清晰地顯示主成份,并進行有意義的解釋,在同一圖中繪出三條曲線,一條是整體均值曲線,另兩條是對均值曲線分別加上和減去主成份的一個適當倍數而形成的曲線,具體結果見圖5(本文所選的倍數是0.12)。以上所述的三條曲線分別對應著圖5中的實心曲線、‘+’曲線和‘*’曲線。第一個主成份反映了資產收益率(ROA)的一般變化,尤其反映了資產收益率的“兩頭”變化情況(1999年以前和2003年以后)。第二個主成份反映了資產收益率(ROA)的中段變化。
六、結論
在經濟實踐中,越來越多的領域所得到的樣本觀察資料是曲線或圖像,即函數性數據。因此,對這種類型的經濟數據進行統計分析和描述,具有重要的現實意義。因篇幅所限,還有一些函數性數據的分析方法未予以介紹,如函數性方差分析、函數線性模型、函數性典型相關分析以及描述動態性的微分方程等。由于本文的主要目的,是通過對函數性數據分析方法和具體應用的介紹,傳述對數據進行分析的新思想,而不只是方法技術本身。因此,缺少的方法并不影響對思想的闡述。
另外,本文對四家銀行資產收益率的分析,例證了函數性數據的分析方法,具有傳統統計分析方法不可比擬的優越性,具體表現在:(1)通過對函數性數據的修勻,將一階或多階導數,如速度和加速度,引入到分析過程中。這一點在計量經濟學和多元統計的分析方法中未予以考慮。(2)函數性數據分析,用最少的假設來研究曲線間和曲線內部的結構變化。關于這一點它優于計量經濟學中處理“面板數據”的方法。事實上,面板數據只是函數性數據的一種類型,本文介紹的數據分析方法可用來處理許多領域的函數性數據,應用范圍相對寬廣,而且觀測時點也可以不等間隔選取。(3)將數據曲線的振幅變化與相位變化分開處理,是函數性數據分析的一個中心理念,但在以前的分析中卻被忽視了。
當剛涉足數據挖掘分析領域的分析師被問及,數據挖掘分析人員最重要的能力是什么時,他們給出了五花八門的答案。
其實我想告訴他們的是,數據挖掘分析領域最重要的能力是:能夠將數據轉化為非專業人士也能夠清楚理解的有意義的見解。
使用一些工具來幫助大家更好的理解數據分析在挖掘數據價值方面的重要性,是十分有必要的。其中的一個工具,叫做四維分析法。
簡單地來說,分析可被劃分為4種關鍵方法。
下面會詳細介紹這四種方法。
1.描述型分析:發生了什么?
這是最常見的分析方法。在業務中,這種方法向數據分析師提供了重要指標和業務的衡量方法。
例如,每月的營收和損失賬單。數據分析師可以通過這些賬單,獲取大量的客戶數據。了解客戶的地理信息,就是“描述型分析”方法之一。利用可視化工具,能夠有效的增強描述型分析所提供的信息。
2.診斷型分析:為什么會發生?
描述性數據分析的下一步就是診斷型數據分析。通過評估描述型數據,診斷分析工具能夠讓數據分析師深入地分析數據,鉆取到數據的核心。
良好設計的BI dashboard能夠整合:按照時間序列進行數據讀入、特征過濾和鉆取數據等功能,以便更好的分析數據。
3.預測型分析:可能發生什么?
預測型分析主要用于進行預測。事件未來發生的可能性、預測一個可量化的值,或者是預估事情發生的時間點,這些都可以通過預測模型來完成。
預測模型通常會使用各種可變數據來實現預測。數據成員的多樣化與預測結果密切相關。
在充滿不確定性的環境下,預測能夠幫助做出更好的決定。預測模型也是很多領域正在使用的重要方法。
4.指令型分析:需要做什么?
數據價值和復雜度分析的下一步就是指令型分析。指令模型基于對“發生了什么”、“為什么會發生”和“可能發生什么”的分析,來幫助用戶決定應該采取什么措施。通常情況下,指令型分析不是單獨使用的方法,而是前面的所有方法都完成之后,最后需要完成的分析方法。
例如,交通規劃分析考量了每條路線的距離、每條線路的行駛速度、以及目前的交通管制等方面因素,來幫助選擇最好的回家路線。
關鍵詞:大數據 大數據分析方法 情報研究 適用性
中圖分類號: G250.2 文獻標識碼: A 文章編號: 1003-6938(2014)05-0013-07
Preliminary Study on the Big Data Analytics and Its Adaptability in Intelligence Studies
Abstract Big data analytics has brought new opportunities for data-oriented or information-oriented intelligence studies' development. Based on existing research, the author makes a review of three viewpoints of big data analytics based on data, process and information technology, and then summarizes five levels of analytics which including statistics, mining, discovery, predict and integrate, and its 17 kinds of relevant research methods. The adaptability of big data analytics in the intelligence studiesis discussed and it is found that 10 research methods can be directly transplanted to intelligence studies, 2 research methods should be adjusted for transplantation, 2 research methods are inapplicable, and 3 research methods needfurther study.
Key words big data; big data analytics; intelligence studies; adaptability
大數據分析(Big Data Analytics,BDA)是以“深度的發現分析、引領行動”作為目標的工作[1-2],它包括由多個任務組成的高度重復執行的步驟[3-4]。BDA通常要集成多種分析技術與軟件工具,以便讓海量數據的處理及分析變得更加容易,從數據中提取有用信息并形成結論,用來驗證、指導及規范組織或個人的決策行動;BDA的執行過程一般包括問題需求及假設提出、數據獲取及記錄、信息抽取及清洗、數據整合及表示、選擇建模及分析方法、結果詮釋、評測結果有效性及監控等幾個階段。從以上BDA的定義及過程來看,BDA與情報學領域中的情報研究(也稱情報分析)在本質上是一致的,兩者至少在方法與技術(以下簡稱方法)上可以相互借鑒或補充。本文基于情報學的視角,關注哪些BDA方法可以為情報研究提供借鑒,并解決情報研究的相關問題。因此,本文首先概略總結BDA的方法體系,然后探討BDA方法在情報研究中的適用性。
1 大數據分析的方法分類
到目前為止,尚沒有公認的BDA方法的分類體系,甚至對BDA包括哪些方法,也有不同的認識。本文首先綜述現有的相關研究,并以此為基礎提出我們的分類體系。
1.1 相關研究
不同學者對BDA方法的看法各有差異,概括起來,主要有三種分類體系,分別是面向數據視角的分類、面向流程視角的分類以及面向信息技術視角的分類。
(1)面向數據視角的BDA方法分類。這類研究主要是以BDA處理的對象“數據”作為分類依據,從數據的類型、數據量、數據能夠解決的問題、處理數據的方式等角度對BDA方法進行分類。
Power[5]依據分析需求將數值型數據的分析方法劃分為三類:①若是模式理解及對未來做出推論,可采取歷史數據及定量工具進行“回顧性數據分析”;②若要進行前瞻及預測分析,可采取歷史數據及仿真模型進行“預測性數據分析”;③若要觸發事件,可采取實時數據及定量工具進行“規范性數據分析”。美國國家研究委員會在2013年公布的《海量數據分析前沿》研究報告中提出了七種基本統計數據分析方法[6],包括:①基本統計(如一般統計及多維數分析等);②N體問題(N-body Problems)(如最鄰近算法、Kernel算法、PCA算法等);③圖論算法(Graph-Theoretic Algorithm);④線性代數計算(Linear Algebraic Computations);⑤優化算法(Optimizations);⑥功能整合(如貝葉斯推理模型、Markov Chain Monte Carlo方法等);⑦數據匹配(如隱馬爾可夫模型等)。
針對非純粹的數值型數據,Li、Han[7]梳理了面向“時空數據”(Spatiotemporal Data)的BDA方法,通過對動態數據挖掘出主體的預測性,如運用物理工程領域的傅立葉變換(Fourier Transform)及自相關匹配(Autocorrelation)偵查某一時間區段的信號、發生的事件或生物基因中的周期性節律,也可運用時間序列方法預測地點位置的變化;魏順平[8]以教育領域為例,梳理了面向學生與學習環境的“學習分析方法”(Learning Analytics),此方法集成了內容分析、話語分析、社會網絡分析、統計分析、數據挖掘等多種方法,從中挖掘學習的各種語義關系,并回答“誰在學、學什么、怎么學、學的結果如何”等問題,為教學與優化學習提供參考。
Mohanty等人[3]從數據獲取(Data Ingestion)角度,依照處理的數據量從小至大的順序,區分出八種分析方法:①流分析(Streaming Analytics),以預定模式及時處理數據流;②高速的數據采集(High Velocity Data Ingestion),不轉換任何格式,可稍晚處理; ③鏈結分析(Linkage Analysis),構建不同數據源的關系與鏈接;④罕見事件偵查(Rare-Event Detection),從龐大數據集中尋找特定模式;⑤數據聚合(Data Mash-Ups),需要對數據屬性發展故事線或鏈接關系進行分析;⑥文本分析(Text Analytics),如觀點挖掘或社會網絡分析等;⑦時間序列分析(Time-Series Analysis),通過模式偵測及事件發生概率來處理時空數據;⑧數據辯論(Data Forensic),用于數據科學家探索大規模數據集。
Chen等人[9]認為,在商業智能分析發展的過程中,商業智能分析經歷了從處理結構化程度較高的數據、到處理網絡上半結構化數據、再到處理移動數據的發展,涵蓋了五類核心的分析方法:①數據分析,涉及數據倉儲、ETL、聯機分析及數據挖掘等分析技術,可應用在時間序列挖掘、網站挖掘、空間數據挖掘等;②文本分析,涉及信息檢索、查詢處理、相關反饋等分析技術,可應用在QA系統、觀點挖掘、多語義分析、可視化分析等;③網站分析,涉及信息檢索、網絡爬蟲、日志分析等分析技術,可應用在云計算、社會網絡分析、網站可視化等;④網絡分析,涉及信息計量、引用網絡、數學網絡模式等分析技術,可應用在鏈結分析、社區發現、社會影響力及擴散模式等;⑤移動分析,可應用在移動通訊服務、個性化分析、游戲營銷分析等。
(2)面向流程視角的BDA方法分類。這類研究主要是依據BDA的步驟和階段對BDA方法進行分類。
美國計算社區協會出版的《大數據的機會與挑戰》白皮書指出BDA是一個多階段任務循環執行過程[4],從整體看,其分析的過程包括了五個階段,每一個階段都包含該階段需要使用的方法:①數據獲取及記錄,從各種感知工具中獲取的數據通常與空間時空相關,需要及時分析技術處理數據并過濾無用數據;②信息抽取及清洗,從異構數據源抽取有用信息,并轉換為結構化的格式;③數據整合及表示,將數據結構與語義關系轉換為機器可讀取、自動解析的格式;④數據建模及分析,從數據中挖掘出潛在規律及知識,涉及可擴展的挖掘算法或知識發現等方法;⑤詮釋,為了讓用戶容易解讀分析結果,可視化分析技術變得十分重要。此外,嚴霄鳳、張德馨[10]依照搜集、分析到可視化的流程,梳理了適用于大數據的關鍵技術,包括:遺傳算法、神經網絡、數據挖掘、回歸分析、分類、聚類、關聯規則、數據融合、機器學習、自然語言處理、情感分析、網絡分析、空間分析、時間序列分析等多種方法。
(3)面向信息技術視角的BDA方法分類。這類研究強調大數據技術本身涉及到的新型信息技術,將大數據處理架構、大數據計算模式、大數據系統等作為BDA方法分類的依據。
孟小峰、慈祥[11]著眼于大數據處理框架,梳理了數據抽取與集成、數據分析及數據解釋所使用的分析方法,在數據抽取與集成方面,可區分為基于物化(Materialization)或ETL的方法、基于聯邦數據庫或中間件的方法、基于數據流的方法以及基于搜索引擎的方法等四類;在數據分析方面,傳統的數據挖掘、機器學習或統計分析面臨數據規模、算法調整等困難,需進一步發展;在數據解釋方面,引入可視化技術或交互式的數據分析過程,有助于用戶理解分析結果。覃雄派等人[12]認為,非關系數據管理(如MapReduce)擴展了數據分析的多維視角,使數據分析的生態系統從“大量數據的移動”轉向“直接對數據進行分析”。
2012~2013年在印度召開了兩次BDA國際研討會[13-14],會上分別就BDA中的機器學習面臨數據規模與多維度問題、可擴展的機器學習算法(如隨機映射、隨機梯度下降等)、機器學習在MapReduce的應用、社交媒體數據挖掘(如話題檢測與跟蹤、地點推理、語義連接等)、高維數據降維分析(如主成分分析、因子分析、經典相關分析等)、圖像挖掘(如Main Memory Approach、Disk-Based Approaches、Database-Oriented Approach)及圖像比對分析(如特征提取、Iterative Methods)等進行了探討。2013年IEEE計算機協會在美國召開大數據國際研討會,BDA結合MapReduce、Hadoop等模型的分析方法仍是主流,研究的內容包括了Map-Based Graph Analysis、Sketch-Based Load Balancing Algorithm、Large Scale Neural Networks等方法。
1.2 BDA方法的分類――面向層次的BDA方法框架
上述三種視角的BDA分類各有特點,都有一定的道理。從面向數據的視角來看,BDA方法正從統計(Statistics)轉向挖掘(Mining),并提升到發現(Discovery)和預測(Prediction)?;诹鞒痰腂DA分類則更能反映BDA過程的集成性(Integration),也就是說,在完成一項分析任務時,需要綜合使用多種方法。從面向信息技術的BDA分類中可以看出,這種分類方式強調使用新技術對傳統數據處理方法進行改進和創新,同時更重視新型系統架構與分析方法的集成,例如,各種數據挖掘算法的MapReduce化,就是這方面的典型實例。
本文認為,如果綜合上述三種分類體系中體現的層次性,將可以更準確描述BDA方法。在此,本文提出一個面向層次的BDA分類框架,將BDA方法分為統計、挖掘、發現、預測及集成五個層次,并初步歸納出17種BDA相關方法(見表1)。
2 BDA方法在情報研究中的適用性探討
如前所述,BDA與情報研究在本質上有共同之處,BDA方法可為情報研究提供借鑒,因此,探討BDA方法對情報研究的適用性就很有必要性。以下綜合考慮方法本身的完善性及可操作性、情報研究的分析對象特征、方法的可移植性[15]等因素,對本文所列舉的17種面向層次的BDA方法在情報研究中的適用性進行分析。
2.1 可直接移植的方法
可直接移植方法是指這些方法的原理、流程、算法等可以直接應用于情報研究,用來對情報研究的數據源(如科技文獻、網絡資源等)進行處理,解決情報研究過程中的一個或幾個步驟中要解決的問題。在本文所列舉的17種面向層次的BDA方法中,數據挖掘、文本挖掘、知識發現、觀點挖掘、話題演化分析、多元統計分析、時間序列分析、海量數據的基本統計方法、高維數據降維分析方法、多源數據融合方法等10種方法均屬于可直接移植方法,其中有些方法在情報研究中已經有多年的應用歷史。
(1)數據挖掘與文本挖掘。數據挖掘與文本挖掘是不同概念,兩種方法分別使用不同的發現技術,文本挖掘屬于基于計算機語言學及統計方法的發現技術,用來揭示文本中的詞與句法特征;數據挖掘以數據庫中的大量結構化的數據挖掘為基礎,用來揭示數據中潛在的、可能的數據模式及關聯規律[16]。在情報學領域的實踐應用中,數據挖掘多應用在圖書館自動化技術與服務方面,例如,館藏采購決策、個性化服務、信息檢索、讀者管理、館藏布局等。文本挖掘在情報研究的價值在于彌補了情報學專門分析方法對科技文獻內在知識挖掘不足的缺欠,例如,祝清松、冷伏海[17]為了解決引文分析方法無法揭示論文的研究內容這個問題,提出引文內容分析,先建立基于規則的引文內容抽取來識別引用句,再通過基于C-value多詞術語識別算法找出高被引論文主題,相比于引文分析,這種方法較能提供客觀的語義信息與文獻之間的語義關系。
(2)知識發現。情報研究中所說的知識發現,主要是指基于文獻的知識發現,例如,張樹良、冷伏海[18]在共詞、共引、文本挖掘等方法基礎上,提出了“基于文獻的知識發現”,包括:基于相關文獻、基于非相關文獻及基于全文獻三種條件下的知識發現,完整揭示文獻的知識結構與演化情況。在網絡環境下,李楠、張學福[19]認為關聯數據的RDF數據模型、數據訪問機制、URIs及自描述數據等規范所形成的數據共享環境,為知識發現提供了新的研究潛力,包括知識發現的范圍被擴展成全球數據空間、高效率理解及處理數據間的語義關系等。簡言之,知識發現從不同數據源之間的復雜關系中獲得隱含的知識或規律,甚至可對未來進行預測。
(3)觀點挖掘與話題演化分析。觀點挖掘與話題演化分析兩種方法實際上是數據挖掘及文本挖掘的具體及深化應用。觀點挖掘主要有三種挖掘任務:情感分類、基于特征的觀點挖掘、比較語句和關系挖掘[20],例如,黃曉斌、趙超[21]通過對網絡輿情信息的文本挖掘,找出不同民眾對某一社會事件的情緒、態度及觀點,再通過關聯分析找出網絡輿情信息的各種關聯性。趙潔、溫潤[22]認為微博情感分析的關鍵是觀點句識別,并根據文本特征的差異性,提出了基于新詞擴充和特征選擇的觀點句識別方法,即先擴充情感詞典來提高分詞準確率,再結合微博特征進行句子選取。話題演化分析方法是近年文本挖掘的研究熱點,借助不同的話題模型,包括基于LSI模型、基于pLSI模型、基于LDA模型等,獲取文本中的一組詞語,表示為某一話題的集合,再引入時間信息模擬該話題隨著時間推移所表現的受關注程度及關注點的變化[23]。又例如,賀亮、李芳[24]利用LDA模型抽取科技文獻中的話題(即主題詞),再計算話題的強度與內容演化,從而區分熱門與冷門話題及其歷年特征詞的演化趨勢。
(4)多元統計分析與時間序列分析。多元統計分析與時間序列分析兩種方法也是情報研究常見的定量分析方法[25],前者研究客觀事物中多個變量(或多個因素)之間相互依賴的統計規律,后者則是基于隨機過程理論和數理統計學方法,研究動態數據序列的規律性。這兩種分析方法的一個重要特點在于能基于歷史數據的變化,評價事物現狀或預測事物未來的發展。
(5)海量數據的基本統計分析方法。海量數據的七種基本統計分析方法適用于情報研究的原因是,專家們普遍認為,在現有硬件技術條件下要開發一個海量數據分析系統的難度過高,且高性能計算領域也面臨許多困難,因而轉向尋找共通的基礎性計算方法來幫助運算[6],同時這些統計方法也經常應用于數據挖掘或文本挖掘。對情報研究來說,處理的數據量不及高性能計算領域的海量數據,因此可以容易地應用這些基本統計分析方法。盡管如此,隨著情報研究處理的文本量增加,包括文獻計量或信息計量方法在內的定量分析方法,仍然要經常借鑒基礎性的計算方法,并進行公式改進。
(6)高維數據降維分析方法。高維數據降維分析方法反映了海量的數值型數據在數據縮減的重要性,常見的降維(Dimensionality Reduction)方法包括主成分分析、因子分析、典型相關分析、獨立成分分析、投影尋蹤等[26]。高維數據經常存在大量的弱相關內容或噪音,通過線性(如主成分分析、典型相關分析等)或非線性(如投影尋蹤、核方法等)映射可以將數據樣本從高維空間映射到低維空間,從而提高機器學習的效率[27-28]。情報研究在處理文本語料時,廣泛使用基于向量空間模型來表示文本,形成的高維特征集會對文本分類或機器學習的效果產生很大影響,通過特征選擇(如特征頻率、互信息等)進行特征抽?。ㄈ鏟CA、LSI、NMF等),轉換成一個低維的特征集來提高訓練效果,是非常必要的[29]。
(7)多源數據融合方法。多源數據融合方法是解決大數據環境下異構數據整合而提出的方法,例如,為了解決不同研究階段產生的各類科學數據集成問題,白如江、冷伏海[30]認為解決關鍵在于中間件構建,例如,通過基于XML模型將異構數據源的元數據映射到全局視圖,解決了不同數據源的關系描述問題,并提供用戶可靈活訂制查詢規則;但基于XML模型只能提供語法層次的整合,為了提供數據在語義層次的整合,可通過基于語義模型對XML的對象進行分類,在對象模型的基礎上生成邏輯規則,揭示隱含在科學數據中的語義信息。此外,也可以通過基于物化或ETL方法、基于數據流方法或其他方法對異構數據源中的數據抽取出實體與關系,再進行數據集成或數據清洗[11]。多源數據融合方法是進入數據分析之前的重要任務,對情報研究來說,需要多種來源支持情報分析工作,包括同型異源信息、異質異構信息、多語種信息等,都需要通過異源信息字段的映射、拆分、濾重、加權等進行融合分析[31]。
2.2 調整后移植的方法
調整后移植的方法是指其在原本的領域已經成功應用,但由于該方法最早或成功應用的領域在任務需求、數據處理、分析過程有自身的特點,若移植到情報研究時,需要根據情報研究自身的特征進行調整。數據可用處理及分析方法、時空數據分析等兩種分析方法就屬于這類情況。
(1)數據可用處理及分析方法。大數據環境中容易產生許多劣質數據來降低數據可用性,為了提高數據可用性及數據質量,李建中及劉顯敏[32]梳理了數種數據可用性的相關方法,包括高質量數據獲取與整合、數據錯誤自動檢測與修復、弱可用數據處理與分析等,分別解決了大規模數據集預處理階段常見的一致性、精確性、完整性、時效性及實體同一性等問題。對情報研究來說,情報素材、產品形式及工作任務分解的質量控制是情報工作的核心[33],其中,情報素材的質量對后續的情報分析成敗存在著至關重要的作用,當數據或信息是錯誤或不完整時,提煉出來的情報勢必會存在缺陷或錯誤。過去對情報研究的質量控制取決于人,如果能引入數據可用處理及分析方法解決數據或信息源可能存在的不一致、不精確、遺漏、滯后或重復等問題,有助于提高情報分析素材的可用性與正確性。
(2)時空數據分析。時空數據分析是地球信息科學相關領域的研究熱點,其中最常使用“周期”(Periodic Behavior)分析,例如天氣預報、環境監控、地理信息系統、城市交通網絡管理等都是常見的應用實例[7]。現有研究的多數做法是采取基于時間序列的方法進行周期建模,但建模過程容易出現對象可能沒有周期、時間點分布不一定呈現周期性等問題,為了解決這些問題,王閱等人[34]提出基于ERP的周期檢測方法解決周期長度定義問題,孟志青等人[35]提出多粒度時間文本下的周期模式挖掘算法解決時態文本數據挖掘問題。對情報研究來說,時間是文本中一個重要的屬性,如文獻發表規律、輿情監控、科研人員的研究主題周期等。在原有數據基礎上增加時間維度進行長時段分析是多數研究的常見做法,但并沒有呈現出其中的周期性規律,特別是文本中的規律特征較難發現,如果能引入此類方法,將有助于找出情報演化的周期模式。
2.3 不適用的方法
考慮學科領域差異,本文認為 “翻譯生物信息學分析”及“學習分析方法”兩種專門研究方法不適合情報研究。
(1)翻譯生物信息學分析。翻譯生物信息學分析是生物信息學的專門分析方法,這種方法是依據特定目的整合多數據源及促進領域知識的有效利用,其結果可應用在生物醫學研究、產生支持醫療人員在治療點中的“可操作的決策”(Actionable Decision),同時能對人類與疾病的關聯關系提供更好的理解。生物信息學為了找出更多基因與疾病的關系,通過翻譯生物信息學分析,可以將分析方法與工具開發從系統層面橫跨到分子、個人或全人類層面,分析視角從單一基因或多肽(Polymorphic)挖掘的研究轉向新基因或遺傳性狀組合與預測研究[36]。從分析方法的操作過程來說,考慮到數據源的特殊性(如DNA編碼數據、蛋白質結構等)、分析視角、工具構建及使用等因素,并不符合情報學的學科研究特色。
(2)學習分析方法。學習分析方法是搜集、分析及評測學習者及其學習語境的分析方法,目的在于理解與優化學習及其學習環境[8]。從UNESCO IITE機構在2012年11月出版的學習分析方法政策簡報可知,學習分析方法的數據分析功能是基于數據挖掘從而開展相關分析內容,包括行為分析、學習資源瀏覽分析、各種關聯分析與影響因素分析等。雖然數據挖掘是情報研究的常見方法,但學習分析方法的結果意義在于解釋學習者的學習語境,為教師或管理者提供決策支持,從而改善學習者的學習習慣及促進學習效果。由于這種方法有其特定的含義和應用環境,離開了學習語境,方法的內涵和外延可能就會產生變化,因此,難以移植到情報研究。
2.4 需要繼續關注的方法
基于MapReduce或Hadoop的衍生分析方法、圖模型分析與挖掘以及商務智能分析,是近年研究探討較多的方法,但目前尚未形成一個成熟且完善的方法體系,例如,MapReduce或Hadoop等之類的工具還在持續發展中,本身也存在不斷的改進空間,它們與各種分析方法的集成缺乏公認的標準和規范,同樣地,對于關注圖像與事物之間關聯的圖模型分析與挖掘也尚沒有發展出固定的技術,又例如,商務智能分析被定義為由數據倉庫、ETL、聯機分析、數據挖掘、客戶關系管理、知識管理等多種技術融合的一組系統,通過BI系統管理組織內部及個人相關的商業數據、專家信息及知識,涉及數據的融合、取用及分析等方法與工具[37-38],目前也沒有標準化的體系架構。
因此,本文還無法明確回答上述三種方法將如何應用于情報研究、在應用過程中需要做哪些調整、這些方法與現有的情報研究方法的關系如何等相關問題,但可以肯定的是,這些方法對未來的情報研究具有借鑒價值,例如,一旦情報研究的處理對象(即數據)積累到了一定程度,成為傳統關系數據庫處理不了的大數據,那么,使用基于MapReduce或Hadoop的衍生分析方法就成為了必然。又如,圖模型分析與挖掘可補充情報研究在圖像分析的不足,而商務智能分析可理解為一套集成系統,可應用在情報機構的知識庫或機構典藏,找出組織的知識缺口等方面。
3 結語
大數據時代就是一個數據分析的時代,學界和業界提出了很多大數據分析的方法與技術,這些方法與技術對情報研究產生了積極的借鑒作用,本文總結了大數據分析的方法,提出面向層次的BDA方法框架,歸納總結了其中的17種BDA方法,并從可直接移植、將調整后移植、不適用于情報研究以及需要繼續關注等四個方面對這些方法在情報研究中的適用性進行了分析,以期為情報研究借鑒或移植BDA相關方法提供參考,促進情報研究的理論與實踐發展。
參考文獻:
[1]Lavalle S, Lesser E, Shockley R, et al. Big Data, Analytics and the Path From Insights to Value[J].MIT Sloan Management Review,2011,52(2):21-32.
[2]Russom P. BIG DATA ANALYTICS[R].The Data Warehousing Institute,2011.
[3]Mohanty S, Jagadeesh M, Srivatsa H. Big Data Imperatives - Enterprise Big Data Warehouse, BI Implementations and Analytics[M]. New York: Apress, 2013.
[4]Computing community consortium. Challenges and Opportunities with Big Data[R]. Washington, DC:Computing Research Association,2012.
[5]Power D J. Using "Big Data" for analytics and decision support[J].Journal of Decision Systems,2014,23(2): 222-228.
[6]Nationalresearchcouncil.Frontiers in Massive Data Analysis[R].Washington,DC:The National Academies Press, 2013.
[7]Li Z H, Han J W. Mining Periodicity from Dynamic and Incomplete Spatiotemporal Data[A]. Chu W W,Data Mining and Knowledge Discovery for Big Data[M].Germany:Springer Berlin Heidelberg, 2014:41-81.
[8]魏順平. 學習分析技術:挖掘大數據時代下教育數據的價值[J]. 現代教育技術,2013, 23(2): 5-11.
[9]Chen H C, Chiang R H L, Storey V C. Business Intelligence and Analytics: From Big Data to Big Impact[J]. MIS Quarterly,2012, 36(4): 1165-1188.
[10]嚴霄鳳,張德馨. 大數據研究[J].計算機技術與發展, 2013, 23(4): 168-172.
[11]孟小峰,慈祥. 大數據管理:概念、技術與挑戰[J]. 計算機研究與發展,2013, 50(1): 146-169.
[12]覃雄派,王會舉,杜小勇,等. 大數據分析――RDBMS與MapReduce的競爭與共生[J].軟件學報,2012, 23(1): 32-45.
[13]Sengamedu S. Scalable Analytics-Algorithms and Systems[A].Srinivasa S, Bhatnagar V.Big Data Analytics[M].India:Springer Berlin Heidelberg, 2012:1-7.
[14]Mehta S, Subramaniam L V. Tutorial : Social Media Analytics[M].Bhatnagar V, Srinivasa S.Big Data Analytics[M].India:Springer International Publishing, 2013:1-21.
[15]王煉,武夷山. 方法移植對科學計量學研究的方法論啟示[J]. 科學學研究,2006, 24(4): 503-507.
[16]Kroeze J H, Matthee M C, Bothma T J D. Differentiating Data-and Text-Mining Terminology: The 2003 annual research conference of the South African institute of computer scientists and information technologists on Enablement through technology[Z]. South Africa:2003:93-101.
[17]祝清松,冷伏海. 基于引文內容分析的高被引論文主題識別研究[J]. 中國圖書館學報,2014,(1):39-49.
[18]張樹良,冷伏海. 基于文獻的知識發現的應用進展研究[J]. 情報學報,2006, 25(6): 700-712.
[19]李楠,張學福. 基于關聯數據的知識發現應用體系研究[J]. 圖書情報工作,2013,(6):127-133.
[20]王輝,王暉昱,左萬利. 觀點挖掘綜述[J]. 計算機應用研究,2009,26(1):25-29.
[21]黃曉斌,趙超. 文本挖掘在網絡輿情信息分析中的應用[J]. 情報科學,2009:(1): 94-99.
[22]趙潔,溫潤. 基于新詞擴充和特征選擇的微博觀點句識別方法[J]. 情報學報,2013,32(9): 945-951.
[23]單斌,李芳.基于LDA話題演化研究方法綜述[J]. 中文信息學報,2010, 24(6): 43-49.
[24]賀亮,李芳. 科技文獻話題演化研究[J]. 現代圖書情報技術,2012,(4): 61-67.
[25]查先進.信息分析[M].武漢:武漢大學出版社,2011.
[26]Lakshminarayan C. High Dimensional Big Data and Pattern Analysis: A Tutorial[A].Bhatnagar V, Srinivasa S.Big Data Analytics[M].India:Springer International Publishing, 2013: 8302, 68-85.
[27]胡潔. 高維數據特征降維研究綜述[J]. 計算機應用研究,2008,(9): 2601-2606.
[28]吳曉婷,閆德勤. 數據降維方法分析與研究[J]. 計算機應用研究,2009,(8):2832-2835.
[29]陳濤,謝陽群. 文本分類中的特征降維方法綜述[J]. 情報學報,2005,24(6): 690-695.
[30]白如江,冷伏海. “大數據”時代科學數據整合研究[J]. 情報理論與實踐,2014, 37(1): 94-99.
[31]化柏林. 多源信息融合方法研究[J]. 情報理論與實踐,2013,(11): 16-19.
[32]李建中,劉顯敏. 大數據的一個重要方面:數據可用性[J].計算機研究與發展,2013,50(6):1147-1162.
[33]王延飛,王林蘭. 論情報研究質量[J].圖書情報工作,2010,54(10):35-39.
[34]王閱,高學東,武森,等. 時間序列周期模式挖掘的周期檢測方法[J]. 計算機工程,2009, 35(22): 32-34.
[35]孟志青,樓婷淵,胡強.多粒度時間文本數據的周期模式挖掘算法[J]. 計算機科學,2013,(S2): 251-254.
[36]Bellazzi R, Diomidous M, Sarkar I, et al. Data analysis and data mining current issues in biomedical informatics[J]. Methods of Information in Medicine,2011,50(6):536-544.
[37]Negash S. Business intelligence[J]. Communications of the Association for Information Systems,2004,13(1):177-195.
[關鍵詞]大數據;市場分析;方法
doi:10.3969/j.issn.1673 - 0194.2017.02.056
[中圖分類號]F270 [文獻標識碼]A [文章編號]1673-0194(2017)02-00-01
0 引 言
隨著移動互聯網技術的發展,人們越來越習慣于網絡購物。在網上購物或刷微博時,常常會看到“猜你喜歡”“可能感興趣的商品”等廣告欄目。而這些內容都是大數據產業的成果,是面向大數據視野得到市場分析的結果。掌握這種市場分析方法,能幫助企業更好地了解消費者的需求,進而更好地開展營銷活動。
1 大數據視野下市場分析的問題
在互聯網得到普及應用的情況下,大數據時代已經正式到來。目前,互聯網上的數據每年都會增長50%。而隨著運動、濕度和溫度等各類傳感器的出現,企業接觸到的數據信息也越來越多,而這些數據在給企業帶來挑戰的同時,也為企業提供了新的市場增長空間。加強數據挖掘和分析,能幫助企業精準地找到用戶,從而通過降低營銷成本、提高銷售率實現利益最大化。因此,企業應面向大數據進行市場分析研究,以便通過統計和分析超大量的樣本數據,獲得更接近市場真實狀態的市場研究成果。
2 大數據視野下的市場分析方法
2.1 基于大數據的市場調研方法
在過去較長的時間里,市場分析是以實地調查為前提,或是通過問卷調查和提供抽樣技術,其目的均是為了獲得消費者的答案。進入大數據時代后,企業開始通過網絡調研進行市場調查。這種方法,能夠方便、快捷且經濟地完成市場調查。具體來講,就是企業通過門戶網站完成市場調研模塊的建立,然后將新產品郵寄給消費者,并要求消費者在試用后進行網上調查問卷的填寫,這樣就能夠投入較少的人力和物力來完成市場調研。由于這種市場分析方法具有一定的互動性,能夠在概念階段利用虛擬仿真技術完成產品測試,從而使消費者參與到產品的開發,進而使市場需求得到更好的滿足。
2.2 基于大數據的市場信息挖掘
面向大數據視野研究市場分析的問題,企業可以發現有效的市場分析需要大量的數據信息提供支撐。所以,企業還要使用基于大數據的市場信息挖掘技術,以便對市場需求進行更好的分析。首先,在智能手機逐步得到普及應用的情況下,企業還應在移動終端開展市場研究,借助移動APP完成消費信息的采集。企業對這些數據進行深入分析,能夠完成產品回購率、產品促銷獎勵評估和購買時點等內容的分析。其次,在零售終端,POS機得到較好的建設和應用下,企業可以通過掃描商品條形碼完成購買地點、名稱和零售價等信息的采集,進而使其更好地掌握商業渠道的動態信息。此外,消費者往往具有從眾性,企業加強對社交平臺的信息挖掘能更好的掌握消費潮流。比如,利用微博評論可以完成消費者對某種產品偏好的了解,從而完成消費者真實消費心理及態度的分析,進而更好地掌握市場信息。
2.3 多學科分析方法的引入
以往的市場分析通常需要采取社會學調查方法完成資料搜集,再利用數據分析軟件完成數據分析,并獲得描述性或預測性的分析報告。在大數據時代,由于要完成海量數據的分析,因此,可以引入相對論、整體論和跨文化比較研究等多個學科的分析方法,以滿足大數據時代數據分析的需要。就目前來看,大數據來自各種移動終端和網絡,其是能反映消費者行動過程和軌跡的數據記錄,采用傳統的市場分析方法難以對這種過程性數據進行分析,而引入以分析過程見長的人類學的分析方法,則能對市場消費者的行動過程進行描述,從而使消費者的行動趨向得到揭示。
2.4 定量與定性分析方法的結合
采取定性或定量這兩種分析方法中的一種,可以完成片段式或截面式數據內容的分析。但在大數據時代,數據變得更加復雜,因此可以使用定量和定性相結合的分析方法進行市場分析。一方面,企業通過網絡調研完成大量數據信息的搜集,從而采取定量分析法進行市場分析研究。這種方法,能夠使市場研究人員成為“隱形人”,從而更加客觀地觀察消費者,并通過對超大樣本量進行統計分析,完成市場狀態的分析。另一方面,針對文本、視頻和圖形等非量化數據,可以通過智能化檢索和分析來完成定性分析,以便在保護消費者隱私的基礎上,更好地分析市場需求。
2.5 數據復雜屬性的還原
在傳統的市場分析工作中,可以將數據看成是一些片段而進行分析。而這樣的分析,實際上是脫離具體情境和社會關系的分析過程,雖然可以根據自身經驗和想象來進行情境原,但得到的研究結果卻不夠客觀和科學。在大數據背景下,企業可以使用能夠還原數據復雜屬性的市場分析方法,以便更好地完成、嵌入某些社會關系的消費者的購買行動和軌跡的分析,進而獲得更加有效及真實的分析結果。因此,使用的市場分析方法應更關注數據的社會背景,從而更好地完成大數據的整合與分析。
3 結 語
在大數據時代,企業要選擇適當的市場分析方法,以便使自身的數據處理能力得到提高,從而通過獲取的高質量的數據信息來提高自身競爭力,進而更好地適應社會發展的要求。因此,希望本文對大數據視野下的市場分析方法展開的研究,可以為相關工作的開展帶來啟示。
主要參考文獻
[1]王云蔚.大數據背景下的消費市場研究[J].北京印刷學院學報,2014(1).
關鍵詞: 數據挖掘;數據倉庫;相關分析
中圖分類號:TP 311.3 文獻標志碼:A 文章編號:1672-8513(2011)03-0182-03
The Application of Correlation Analysis Algorithms in the Data Invites Chien
ZHANG Hanyun,DUAN Peng
(School of Mathematics and Computer Science,Yunnan University of Nationalities,Kunming 650031,China)
Abstract: The data warehouse was constructed by using the mass data of computer science majors’ scores generated during the past three years in thirteen classes of four grades, we analyze the corresponding degree of different courses in the database using corresponding analyzing techniques, and condense the attributes in database according to corresponding factors, An example is given to illustrate the application of the proposed method. The analysis introduced in the paper has provided a scientific basis for improving the teaching quality .Then it is prepare for the Association rules mined of different courses.
Key words: data mining;data warehouse; correlation analysis
相關分析法是在分析某個問題或指標時,將與該問題或指標相關的其他問題或指標進行對比,分析其相互關系或相關程度的一種分析方法,用少數幾對綜合變量來反映2組變量間的線性相關性質.目前它已經在眾多領域的相關分析和預測分析中得到廣泛應用.本文主要研究如何利用相關分析技術產生計算機專業課之間的相關系數,發現專業課程之間的相關度,對數據倉庫中的數據進行約簡[1].
1 相關分析
1.1 相關分析概述[2]
相關分析(Correlation Analysis)是研究隨機變量之間的相關關系的一種統計方法.相關關系是一種非確定性的關系,例如,以X和Y分別記一個人的身高和體重,或分別記每公頃施肥量與每公頃小麥產量,則X與Y顯然有關系,而又沒有確切到可由其中的一個去精確地決定另一個的程度,這就是相關關系.例如,教育投資與教育發展速度的關系、教師教學水平和學生的學習效果之間的關系等[3].
相關系數值為-1(完全負相關關系)~+1(完全正相關關系)之間,相關系數為0時,表示不存在相關關系.例:
正相關:學生的學習能力與學習成績的關系;
負相關:教師的身體狀況與缺勤率的關系;
零相關:教師的身高與教學能力的關系.
Pearson相關用于雙變量正態分布的資料,其相關系數稱為積矩相關系數(Coefficient of Product-Moment Correlation).進行相關分析時,我們一般會同時對2變量繪制散點圖,以更直觀地考察2變量之間的相互變化關系[4].
用Flag Significant Correlations 進行顯著性檢驗,標出有顯著性意義的相關系數,用一個星號“*”標記在α=0.05水平上有顯著性意義的相關系數;用2個星號“**”標記在α=0.01水平上有顯著性意義的相關系數[5].
1.2 相關分析的表示方法
進行相關分析的主要方法有圖示法和計算法.圖示法是通過繪制相關散點圖來進行相關分析,計算法則是根據不同類型的數據,選擇不同的計算方法求出相關系數來進行相關分析.
1.2.1 圖示法
圖示法的具體做法就是繪制相關散點圖.相關散點圖是觀察2個變量之間關系的一種非常直觀的方法.具體繪制的方法是:以橫軸表示2個變量中的1個變量(作為自變量),以縱軸表示另一個變量(作為因變量).將2個變量之間相對應的變量值以坐標點的形式逐一標在直角坐標系中,通過點的分布形狀和疏密程度來形象描述2個變量之間的相關關系.
相關散點圖可以通過手工繪制而得到.但如果面對的變量值比較多,手工繪制的過程既費時,又不夠精確.
1.2.2 計算法
相關系數也稱為相關量,是用來描述變量之間變化方向和密切程度的數字特征量,一般用r表示.它的數值范圍在-1到+1之間,它的正負號反映變量之間變化的方向;它的絕對值的大小反映變量之間關系的密切程度.
根據2個變量變化的密切程度,我們把相關關系分為完全相關、高度相關、中度相關、低度相關、零相關[6].
完全相關:│r│=1的相關;
高度相關或強相關:0.7≤│r│<1的相關;
中度相關:0.4≤│r│<0.7的相關;
低度相關或弱相關:│r│<0.4的相關.
1.3 Pearson相關
Pearson相關也稱積差相關,積差相關也稱積矩相關,是英國統計學家Rearson提出的一種計算直線相關的方法,因而又稱為Rearson相關[6-7].
積差相關系數是2列成對觀測值中各對觀測值的標準分數乘積之和除以觀測值對數所得之商[8].
1.3.1 Pearson相關的使用條件
1) 2個變量之間是線性關系,都是連續數據;
2) 2個變量的總體是正態分布,或接近正態的單峰分布;
3) 2個變量的觀測值是成對的,每對觀測值之間相互獨立.
1.3.2 Pearson相關的計算公式
r=∑ZXZYn=∑X-Y-nσXσY.
式中,[ZK(]n表示數據的對數;σX,σY分別表示X和Y變量的樣本標準差;[JP],分別表示X和Y變量的樣本平均數.[ZK)]
對于學生成績,其課程總體分布接近正態分布,滿足Pearson相關的使用條件.在統計軟件SPSS中,可以很方便地得出2變量之間的Pearson相關系數.[JP]
2 用相關分析法進行數據約簡
2.1 學生成績數據倉庫的建立
數據選擇上,主要選擇了作者所在學校計算機專業3年來產生的專業基礎課成績,收集并整理了包含高等數學、C語言、數據結構和數據庫系統原理的504條學生成績數據.并將具體的成績數據離散化為4個等級[9],即:
成績>=80“A”; 70=
2.2 用相關分析法進行數據約簡
對大規模數據庫內容進行復雜的數據分析通常需要耗費大量的時間,這就常常使得這樣分析變得不現實和不可行,尤其是需要交互式數據挖掘時.數據約簡技術正是用于幫助從原有龐大數據集中獲得一個精簡的數據集合,并使這一精簡數據集保持原有數據集的完整性,這樣在精簡數據集上進行數據挖掘,顯然效率更高,并且挖掘出來的結果與使用原有數據集所獲得結果基本相同[10].
數據約簡并不是一個新的領域,現在已經提出了很多理論和方法,如:層次分析法,主成分分析法,隨機抽樣、免疫算法等.本研究根據實際需要,提出將相關分析方法應用于學生成績的屬性約簡,即方便快捷又不失理論性.
在SPSS軟件中,畫出計算機專業課高等數學成績的直方圖,如圖1.
用同樣的方法,可以畫出其他計算機專業課如C語言、數據結構等的直方圖,可以看出,我們所建立的數據倉庫中,學生計算機專業課程成績基本上符合正態分布,滿足Pearson相關的使用條件.
我們用雙變量相關分析技術來分析相關課程之間的關聯程度,并做出統計學推斷,以最少的數據量反映最大的信息量,進而對數據庫的屬性進行約簡.通過相關分析約簡相關性較弱的屬性,選擇相關性強的屬性而不直接利用數據庫中的所有屬性,從而減少大量冗余屬性,以提高算法的效率.
在SPSS中進行課程間Pearson相關系數分析,得到計算機專業課程相關系數分析表如表1.
1:表中數值為4門課程進行相關分析得到的皮爾遜相關系數(Pearson Correlation)、相伴概率(Sig.(2-tailed))、樣本個數(N).“*”標記在α=0.05水平上有顯著性意義的相關系數;用兩個星號“**”標記在α=0.01水平上有顯著性意義的相關系數;
2:相伴概率用來判斷求解線性關系的兩變量之間是否有明顯的線性關系.一般將這個Sig值與0.05相比較,如果它大于0.05,說明平均值在大于5%的幾率上是相等的,而在小于95%的幾率上不相等;如果它小于0.05,說明平均值在小于5%的幾率上是相等的,而在大于95%的幾率上不相等;如C語言與數據結構的Sig是0,此數值說明C語言與數據結構有顯著的線性關系(因為Sig0.05,則說明兩變量之間沒有明顯的線性關系).
由表1可以看出,同一門課程之間的Pearson相關系數為1,是完全相關關系.高等數學與C語言之間的Pearson相關系數為0.283,C語言與數據結構之間的Pearson相關系數為0.281,數據結構與數據庫系統原理之間的Pearson相關系數為0.565,并且都有“*”標記,由此可以推斷這4組課程之間有顯著性意義的相關性.
3 結語
用相關分析技術對數據庫進行約簡,結果表明:線性代數、計算機導論及Pascal語言等多個因素相關性較弱;而C語言、數據結構、高等數學及數據庫系統原理之間相關性較強,根據數據庫約簡原則,可將線性代數、計算機導論及Pascal語言等多個屬性項從數據庫中刪除,以便提高數據挖掘效率.
參考文獻:
[1]段西凌,甘開鵬.數據挖掘在人口普查信息系統中的應用[J].云南民族大學學報:自然科學版,2006,15(2):170-172.
[2]茆詩松.統計手冊[M].北京:科學出版社,2003.
[3]TANG Zhaohui,MACLENNAN J.數據挖掘原理與應用[M]. 鄺祝芳,焦賢龍,高升,譯.北京:清華大學出版社,2007.
[4]王艷.數據挖掘中關聯規則的探討[J].成都信息工程學院學報,2004,19(2):173.
[5]張儒良,王翰虎.論數據挖掘優化教學管理[J].貴州民族學院學報,2004:133.
[6]趙輝.數據挖掘技術在學生成績中分析中的應用[D].大連:大連海事大學,2007.
[7]王月敏.基于遺傳算法的智能組卷系統研究[J].云南民族大學學報:自然科學版,2009,18(2):173-176.
[8]劉利鋒,吳孟達. 關聯規則的快速提取算法 [J].計算機工程.2008,34(5):63-65.
[9]李萍,段富.數據挖掘中數據約簡的研究與應用[J].微計算機應用.2009,25(2):58-60.[ZK)]
[10][ZK(#]蔡勇,韓永國,劉自偉.數據挖掘技術在生源分析中的應用研究[J].計算機應用研究.2004,32(6):48-51.
收稿日期:2010-09-06.