前言:想要寫出一篇令人眼前一亮的文章嗎?我們特意為您整理了5篇海量數據范文,相信會為您的寫作帶來幫助,發現更多的寫作思路和靈感。
以前,我們習慣稱大量數據為海量數據。從2010年下半年開始,大數據這個概念逐漸為人們所熟知。那么,大數據比海量數據到底多了些什么呢?EMC中國卓越研發集團首席技術官陶波表示:“大數據與海量數據從本質上講并沒有不同,兩者都反映出數據快速增長的趨勢。但是,海量數據主要是從存儲的角度去考慮問題,而大數據除了包括數據存儲,還包括商務智能和數據分析?!闭腔谶@種認識,EMC收購了數據倉庫廠商Greenplum。其實,在大數據時代,企業對存儲的要求也有變化,具備橫向擴展(Scale-out)能力的存儲越來越受到用戶的歡迎。EMC收購Scale-out NAS廠商Isilon就是為了順應這種趨勢。Isilon與Greenplum的組合成了EMC進入大數據市場的敲門磚。
存儲隨需而變
美國一家知名的DVD租賃企業每年都會邀請一些協同處理算法的專家對其用戶數據進行分析,從而了解租賃客戶的需求。一些美國金融企業甚至提出了分析即服務的理念。陶波表示,金融、電信、互聯網等企業對大數據的處理和分析有迫切的需求。與傳統的商務智能應用相比,大數據對企業數據的處理能力和商務智能軟件提出了更高要求:首先,企業必須具備處理大量數據的能力,因為有的企業可能一天之內就要多次處理PB級的數據,這是一些傳統的存儲設備所不能勝任的;其次,傳統的數據倉庫軟件是針對結構化數據設計的,而大數據包含的主要是非結構化的數據,因此傳統的數據倉庫軟件必須改變。
談到大數據對存儲的影響,陶波表示,具有橫向擴展能力的存儲才能更好地處理大量文件。Isilon集群NAS產品的主要技術優勢就是橫向擴展能力。最新的EMC Isilon IQ 108NL采用3TB企業級Hitachi Ultrastar驅動器,在單一文件系統和單個卷中,其容量可超過15PB。EMC還推出了Isilon SmartLock數據保留軟件應用,可保證大數據從收集到歸檔的完整性和連續性。隨著大數據時代的到來,NAS存儲將大行其道。為了提高系統的處理性能,SSD在存儲中的應用也會越來越普遍。
云計算和大數據相輔相成
為了滿足大數據的需求,商務智能軟件必須改變。陶波舉例說:“隨著多核處理器的普及,商務智能軟件也要從針對單線程的應用轉為針對多線程的應用,因此商務智能軟件的代碼可能要改變?!盓MC已與許多商務智能軟件廠商開展了緊密合作。EMC的硬件平臺不僅針對Greenplum軟件進行了優化,而且還能廣泛地支持第三方的商務智能軟件。
今年5月,EMC針對常用于數據密集型分布式應用的Hadoop開源軟件推出了一個定制的、高性能的Hadoop專用數據協同處理設備――Greenplum HD數據計算設備(Data Computing Appliance)。該設備結合了Hadoop和EMC Greenplum數據庫,在一個單一、無縫的解決方案中實現了對結構化和非結構化數據的協同處理。此外,EMC還推出了面向Hadoop的EMC Greenplum HD社區版和EMC Greenplum HD企業版軟件。
John R. Talburt教授是國際信息與質量協會技術顧問委員會成員。該組織是信息與數據研究領域唯一專業國際組織。Talburt教授認為,中國正面臨海量數據爆發,信息與數據質量優化將成企業競爭力。
在西安交大與安客誠的IQ/DQ最佳實踐論壇中,Talburt教授不但與安客誠大中華區業務發展副總裁孔宇先生一起深度剖析如何管理與優化信息、提高數據質量以及減少運營風險的實踐經驗。論壇特邀中國郵政集團數據管理處處長趙岫楓女士介紹了中國郵政郵編地址的數據質量提升服務,并針對數據管理與優化的主題與參會者做深度分享。
Gomez中國門戶 2.0版
Compuware總裁兼首席運營官(CEO)Bob Paul在會上做主題演講.jpg
日前,專注于從事技術性能服務,全球領先的應用性能管理(APM)供應商Compuware公司(Compuware Corporation,NASDAQ:CPWR)宣布推出針對中國市場的統一應用性能管理解決方案――Compuware Gomez中國門戶 2.0版。該新版本由經驗豐富的中國研發團隊開發,使中國用戶能夠用本地語言訪問業界獨一無二的“First Mile”(數據中心)到 “Last Mile”(終端用戶)APM 解決方案,為中國用戶提供全面的終端用戶性能的全球化視圖。
近年來,隨著中國APM市場的不斷增長,中國已經成為Compuware全球APM市場重要地區之一,Compuware也對中國市場寄予了很高重視。Compuware總裁兼首席運營官(CEO)Bob Paul先生、Compuware 亞洲與印度區副總裁Nick Evered先生、Compuware APM業務部首席技術官Steve Tack先生、Compuware APM 中國區研發和運營副總裁李啟蓉女士、Compuware大中華區解決方案銷售總監李翔以及網宿科技股份有限公司(ChinaNetCenter)行政副總裁劉洪濤先生等公司高層共同出席了此次會,向與會者們介紹了Compuware Gomez產品業界領先的技術亮點,分享了Compuware Gomez產品帶給中國企業的核心價值,并與現場用戶和媒體展開深入交流。
云客戶端計算革新夢想 迎接IT消費化時代到來
迎接IT消費化時代到來
Gartner于2005年提出的“IT消費化”預測已變成現實。所謂“IT消費化”,即是信息技術的消費化,它的產生來源于個人科技消費商用化而產生的對科技產品及服務的新一代需求;是消費技術浪潮深入企業的產物。在商業世界中,企業要求隨時獲得速度、質量、安全及靈活的技術支持,而云、虛擬化和移動設備正在使這種需求成為可能。最新IDC調查也顯示,IT消費化是信息技術改變人類工作與生活方式的最新體現?,F如今,在后PC時代,IT消費者化概念變得愈加的火熱。每個人都會感受到它的影響力,而IT界更是必須找到支持IT消費者化的方式,來留住雇員并保持企業的生產力。
1計算機海量數據SLIQ算法對云計算技術的應用
云計算下SLIQ算法中,根據MDL剪枝原理,對計算機海量數據數據進行編碼,對于生成的初始樹,發現最好的描述訓練集S的子樹T。同時,SLIQ算法還具備一些不足,首先是,云計算技術的SLIQ算法中,在云計算計算機中把類別列表存在內存中,對數據集大小具有一定限制作用。其次是云計算技術的SLIQ算法中,采用的是預排序技術,由于實際排序算法復雜度,不是和記錄個數成線性關系的,因此實際中,也不能通過記錄數目增長,而使數據結構發生線性可伸縮性。要實現數據庫內數據的轉換,首先確定數據分析中所具備的的參數,定義統計數據以及刪除統計數據,確定統計時間段以及參與SLIQ計算的字段。基于SLIQ算法中,針對實際計算機海量數據處理中改進SLIQ算法,避免SLIQ算法大量計算云計算決策樹中每個節點的指數,從而可以獲得每個節點的分裂屬性,減少計算復雜性,提升分類效果,類圖如下:Maketree(data)//建立其云計算技術的決策樹{創建數據的屬性表12malists,alistsΛ,alists且在每個屬性表中ialists包含屬性iA作為計算機海量數據的記錄可以建立其直方圖fori=1tonval=(alists[i][m]alists[i][0])/numcount=0whilecount<num7.split=alists[i][0]+count*val然后遍歷計算機海量數據的屬性iA,并計算Gini指數值,重復操作并確定出最佳分裂點//計算數據的Gini指數gini=calc(l[c],r[c])ifginival>giniginival=ginisplitval=splitattr=Icount++ifgini=0return//當Asplivalattr當Asplivalattr<,maketree(data1)maketree(data2)}云計算技術的SLIQ算法中,計算最佳分割的算法代碼如下所示:EvaluateSplits()foreachattributeAdotraverseattributelistofAforeachvaluevintheattributelistdofindthecorrespondingentryintheclasslist,andhencethecorrespondingclassandtheleafnode(sayl)updatetheclasshistogramintheleaflifAisanumericattributethencomputesplittingindexfortest(A<=v)forleaflifAisacategoricalattributethenforeachleafofthetreedofindsubsetofAwithbestsplit建樹階段中,應該提高“確定最佳分裂(BestSplit)”的可伸縮性,計算開銷不大,確定數值型字段,尋找最佳的子集,遍歷所有子集,時間復雜度為指數級。其次,選擇導致最低錯誤率的子樹;使用獨立的數據集,快速得到簡潔而且準確的決策樹。最后得出決策樹,經過程序對決策樹進行普及之后,得出計算機海量數據處理結果。
2結論
綜上所述,針對計算機海量數據,應用基于云計算技術的SLIQ算法,可以有效有效解決計算機海量數據計算問題,處理海計算機量數據,不僅可以解決計算機海量數據存儲中節點失效的問題,大大提高計算海量數據的效率,具有實際應用價值。
作者:崔學敏 張傳勇
關鍵詞: 數據挖掘; 粗糙集; 大數據處理; 并行計算
中圖分類號: TN911?34; TQ028.1 文獻標識碼: A 文章編號: 1004?373X(2016)07?0115?05
Abstract: Since the traditional data mining algorithm has the limitation in the aspect of data magnitude, on the basis of rough set theory, the class distribution list structure is used to improve the traditional data discretization algorithm based on attribute importance, attribute reduction algorithm and heuristic?based value reduction algorithm. The two?step discrete algorithm based on dynamic clustering is discussed. When the algorithm adapts to the big data processing, the parallel computing method is used to improve the execution efficiency of the algorithm. The test results of the algorithm show that the improved algorithm can effectively process the big data size. The parallel computing can solve the efficiency problem causing by big data size processing.
Keywords: data mining; rough set; big data processing; parallel computing
0 引 言
信息時代,數據(尤其是海量數據)已被各企業、各研究機構當成重大的知識來源、決策的重要依據[1],對于數據的急速增長,如何有效地解決數據挖掘過程中空間和時間的可伸縮性已經成為數據挖掘領域中迫切需要解決的難題[2]。從知識發現的過程中可以看到,數據挖掘不僅面臨著數據庫中的龐大數據問題[3],而且這些數據有可能是不整齊的、不完全的、隨機的、有噪聲的、復雜的數據結構且維數大[4]。傳統的數據挖掘算法還限制于單機內存的容量[5],當一次性需要分析的數據不能全部進入內存時,算法的性能就會嚴重降低[6],甚至得不到預期的結果,使用基于粗糙集理論的算法策略將有效解決這個問題[7]。
本文針對傳統數據挖掘算法在數據量級方面的局限性,提出了結合類分布鏈表,把數據挖掘算法推廣到可以處理更高數據量級,最后采用并行計算的方法提高基于動態聚類的兩步離散化算法適應大數據處理之后的執行效率。
1 改進的Rough Set知識約簡算法
許多經典的Rough Set知識約簡算法都可以通過引進CDL(類分布鏈表)改進,CDL可以反映某個條件屬性組合對論域的分類情況。CDL分為不相容類分布鏈表(ICDL)和相容類分布鏈表(CCDL)兩部分,CCDL根據鏈表中每個分類的樣本數目又可分為單例相容類分布鏈表(SSCDL)和多例相容類分布鏈表(MSCDL)[7]。引進CDL后相對于原始的經典算法,改進后的算法將具有更好的可伸縮性,能夠更好地處理海量數據集。以下通過引入CDL對包括離散化、屬性約簡和值約簡的一組Rough Set知識約簡算法進行改進。
1.1 改進的離散化算法
數據離散化是Rough Set知識獲取方法中的重要組成部分。在此采用基于屬性重要性的離散化算法,在原算法的基礎上通過引入CDL,使得該算法能夠處理海量數據。
算法1.1 基于屬性重要性的離散化算法
算法輸入:一個完備的決策表信息系統DT
算法輸出:離散化后的決策表信息系統DT
算法步驟如下:
(1) 循環遍歷每一個連續的條件屬性,并且通過生成[ICDLai]計算屬性[ai]的條件信息熵。
(2) 根據條件信息熵降序排序,排列所有連續的條件屬性。
(3) 針對排序后的DT,循環遍歷每一個連續的條件屬性[ai,]生成[ICDLC\ai;]設置[Szone=null,]其中[Szone]是屬性[ai]的值域的一個子集。
(4) 循環遍歷區間[Sa,Sb]上的每一個斷點。其中[Sa]和[Sb]是屬性[ai]上兩個連續的屬性值;令[Szone=Szone+Sa。]
(5) 循環遍歷DT中滿足[SVjai=Sh]的每個樣本[SVj,]其中[Sh∈Szone。]
(6) 循環遍歷DT中滿足[SVkai=Sb]的每個樣本[SVk;]如果樣本[SVj]和[SVk]出現在[ICDLai]中的同一個條件分類中而且它們之間存在符號“@”,則選擇[Sa,Sb]的斷點,并把 [Szone]重新置為空。
1.2 改進的屬性約簡算法
使用基于信息熵的CEBARKNC算法。根據類分布鏈表求取條件信息熵的方法[8],通過某個條件屬性組合的ICDL很容易求得決策屬性相對于該條件屬性組合的條件信息熵。因此可以通過ICDL改進CEBARKNC算法的可伸縮性,改進的算法與原算法在計算信息熵的過程不一樣。
1.3 改進的值約簡算法
在此改進啟發式值約簡算法,該算法在原算法的基礎上加上CDL,使得該算法能夠處理海量數據。原算法在執行第一步的時候按照[CDL(a)]中的三部分更新決策表S。
(1) 把[SSCDL(a)]中的樣本在屬性[a]上的值標記為“?”;
(2) 把[MSCDL(a)]中的樣本在屬性[a]上的值標記為“*”;
(3) [ICDL(a)]中的樣本在屬性[a]上的值不變。
由(3)可知[ICDL(a)]中的樣本不需要處理,而在處理[SSCDL(a)]和[MSCDL(a)]的樣本時,不把生成實際的鏈表放在內存中處理而是直接在數據庫中進行處理。具體的算法描述如下:
算法1.2 改進啟發式值約簡算法
輸入:一個完備的離散的決策表信息系統DT
輸出:規則集RT
假設樣本標號為Index,決策屬性為DA,條件屬性集合[C,]則算法步驟如下:
(1) 把RT初始化為DT。
(2) 循環遍歷每一個條件屬性[ai,]把[SSCDL(ai)]中的所有樣本在[ai]上的屬性值標記為“?”。
(3) 把[MSCDL(ai)]中的所有樣本在[ai]上的屬性值標記為“*”。此外剩下的樣本都在[ICDL(ai)]中,它們在[ai]上的屬性值不需要改變。
(4) 接下的操作步驟與原始的值約簡算法相同。
2 基于動態聚類的兩步離散化算法的并行化
基于動態聚類的兩步離散化算法的第一步是利用動態聚類算法對決策表第一次進行離散化,然后利用斷點重要性離散化算法進行再次離散化,從而得到最終的斷點集。
算法2.1 基于動態聚類的離散化算法
輸入:決策表[S=]
輸出:決策表[S]首次篩選后的斷點集[CUTfirst]循環遍歷[S]的每一個條件屬性[k,]執行以下步驟:
(1) 計算屬性[k]每一斷點的重要性,并按斷點值從小到大排序,計算結果保存在數組[Importantk[]]中,數組的索引[m]表示最重要的斷點在數組中的位置,即:
決策表經過上述的算法離散化之后,其效果僅相當于基于屬性重要性離散化算法的局部離散化效果。下面通過把斷點集[CUTfirst]輸入到斷點重要性算法中進行一次全局離散化便得到基于動態聚類的兩步離散化算法。
算法2.3對算法2.2進行了并行化處理,得到的離散化結果與算法2.2是一致的,但算法2.3帶來的好處是提高了離散化算法的運行效率。
3 算法測試
3.1 改進的Rough Set知識約簡算法測試
3.1.1 算法正確性測試
選擇UCI數據庫中的5個數據集(見表1)來比較經過CDL改進的知識約簡算法與原始經典Rough Set算法的正確性,雙方都應用了相同的算法組合。比較的結果見表2,從結果中可得出:使用經過CDL改造后的知識約簡算法不影響原始的經典Rough Set算法的正確率及識別率等性能。
3.2 基于動態聚類的兩步離散化算法的并行化處理算法測試
從UCI數據庫中選取6組數據集對算法2.2進行測試。表3是實驗使用的數據集。表4,表5展示了基于動態聚類的離散化算法、基于動態聚類的兩步離散化算法、貪心算法、基于斷點重要性的離散化算法等5種算法的運算對比結果。其中,算法的運行時間用符號[T]表示,規則集的正確識別率用符號[P]表示。
4 結 論
從目前常用的數據挖掘算法出發,采用類分布鏈表來改進傳統的數據挖掘算法,使該算法能直接處理海量數據集,實現處理超大規模數據集的目標。系統采用并行計算的核心思想,基于動態聚類的并行離散化算法,提出分布確定類分布鏈表的方法,有效解決了系統內存限制的問題。同時,提高了基于動態聚類的兩步離散化算法的運行效率。
參考文獻
[1] 黃朝輝.基于變精度粗糙集的數據挖掘方法研究[J].赤峰學院學報(自然科學版),2014(8):3?4.
[2] 要照華,閆宏印.基于粗糙集的海量數據挖掘[J].機械管理開發,2010,25(1):17?18.
[3] 石凱.基于粗糙集理論的屬性約簡與決策樹分類算法研究[D].大連:大連海事大學,2014:22?25.
[4] 劉華元,袁琴琴,王保保.并行數據挖掘算法綜述[J].電子科技,2006(1):65?68.
[5] 陳貞,邢笑雪.粗糙集連續屬性離散化的K均值方法[J].遼寧工程技術大學學報,2015(5):642?646.
[6] CORNELIS C, KRYSZKIEWICZ M, SLEZAK D, et al. Rough sets and current trends in soft computing [M]. Berlin: Springer, 2014: 11?15.
[關鍵詞]海量數據;“預防”思維;校園;公共安全管理機制
doi:10.3969/j.issn.1673 - 0194.2016.24.154
[中圖分類號]G647 [文獻標識碼]A [文章編號]1673-0194(2016)24-0-02
0 引 言
校園的安全與穩定是學校教書育人等各項工作開展的重要前提與保證,校園管理人員應提高對校園安全的認識,提升校園公共安全管理水平。但目前我國各校在公共安全方面或多或少存在著諸多隱患:林生指出社會多元思想的交集、宗教勢力以及網絡技術的推動、網絡犯罪等給校園安全帶來巨大威脅;陸偉認為學校安全教育不足,治安管理落后,心理健康狀況不佳、網絡負面信息傳播以及社會外部環境都是校園安全問題多發的重要因素。校園安全防范工作重點集中于治安管理、安全教育、心理健康與交通安全等多方面內容,涉及學校的教研、日常管理和后勤服務的各個環節。
大數據時代來臨,海量數據的存儲與處理技術的日趨成熟,可以消除數據信息的不確定性,在信息產業、交通運輸及公共安全等領域已得到廣泛的應用(張春艷,2014)。大數據具有規模性(Volume)、多樣性(Variety)和高速性(Velocity)等特點,云存儲與云計算技術的發展讓這些數據得以轉化為有價值的信息。本文將依托大數據思維和技術,基于海量數據的應用研究校園公共安全管理問題,構建海量數據應用下的校園公共安全管理機制,分析存在的難點問題,并提出應對措施。
1 海量數據下校園公共管理管理機制的建立
1.1 大數據環境下海量數據應用的內涵
任何數字化管理領域的海量數據本身都具有巨大的數據價值,但是人們探究某一具體數據時,它自身的數據價值密度卻相對較低。多樣性的數據包含結構化數據和非結構化數據,數據呈現形式的多樣性加大了數據處理的復雜性。
海量數據的應用有兩個內涵,一是技術的應用,二是思維的轉變。海量數據應用技術既包括諸如數據倉庫、數據集市和數據可視化等舊技術,也包括云存儲和云計算等新技術;而海量數據應用思維則是從海量數據中發現問題,用全樣本的思維來思考問題,形成了模糊化、相關性和整體化的考慮方式。海量數據應用技術和思維的創新的融合發展,給很多領域帶來了革命性的改變,科教文衛各個領域的發展都與數據緊密結合,校園公共安全管理也不例外。
1.2 海量數據應用下校園公共安全管理的特點
1.2.1 校園安全管理中新技術手段得以應用
海量數據的應用在校園公共安全管理中所發揮作用,可以從技術手段和思維模式轉變角度理解。校園環境內發生的種種事情,都是校園安全危機潛在發生的基礎,同時這也是一個巨大的數據集合。龐大的數據需要有相應的數據處理技術對其進行收集、存儲、分析、統計與應用等操作,大數據新的技術手段不再局限于傳統的結構化數據庫表格的整齊排列,而是實現了向“消除僵化的層次結構和一致性”技術的革新,實現了非結構化或半結構化數據的處理。
1.2.2 校園安全管理從“應對”到“預防”的思維轉變
在能夠對海量數據進行分析處理之前,人們面對少量數據結果習慣于“因果關系”思考,由“因”到結果進行探究,這是一種傳統安全管理的“思維”。大數據技術,可以對海量的數據進行統計與應用,實時實現數據的更新與監控,可以實現校園環境動態可視性,關注事物之間相關關系。在海量數據分析基礎上,對校園公共安全影響因子的考量不僅僅需要知道為什么,更需要知道是什么,從而進一步預測未來的發展趨勢及時發現安全風險,采取防控措施。
1.2.3 海量數據應用推動多部門協同聯動
傳統的校園安全管理缺乏海量數據支持,往往局限于單一部門防范措施的推動。一方面單一的安全防范措施不能夠有效整體排查與應對校園公共安全風險,另一方面不同部門掌握不同的資源與數據,無法實現有效協同配置,造成資源浪費和效率底下。海量數據應用需要校園安全管理的保衛科、警衛處、物業管理、醫療保健與心理健康教育等多部門的聯動,實現各部門數據的開放共享。
1.3 海量數據應用下校園安全管理機制
海量數據應用于校園安全管理務必需要一個完整的數據庫系統,這個系統包含校園環境內各種與安全風險相關的數據信息。校園安全管理數據庫包含人口基本信息數據庫(校內或校外周邊常住人口的年齡、戶籍、宗教、教育與病歷等)、網絡信息傳輸數據庫(網絡信息記錄、通信記錄等)、地理信息系統數據庫(建筑布局、氣候、交通道路、人口布局、安全隱患布局與安全設施布局等)、心理健康狀況數據庫(校內外流動人口心理健康測評數據或心理健康跟蹤數據)、醫療衛生監控數據庫(校內外流動人口醫療記錄、校內食堂等設施衛生監管數據、校外娛樂餐飲服務衛生數據等)、校園安全事件案例庫(校內歷史安全案件記錄或典型安全案例)等。