前言:本站為你精心整理了教育培訓大數據分析與應用探究范文,希望能為你的創作提供參考價值,我們的客服老師可以幫助你提供個性化的參考范文,歡迎咨詢。
摘要:以數據輔助領導決策、以數據驅動業務發展已成為企業數字化轉型的必然選擇。文章介紹了中郵網院大數據分析平臺的系統架構、系統功能以及應用領域,探討了中郵網院大數據分析應用的未來發展方向。
關鍵詞:大數據;數據倉庫;智能問答機器人;知識服務體系
2006年Hadoop技術的出現標志著大數據技術時代的開始,10多年來,大數據在宏觀政策、技術創新、產業體系和應用場景等方面都得到了蓬勃發展。大數據的應用正在向全行業、全領域、全鏈條滲透,覆蓋智慧政府、城市大腦、金融風控、健康醫療、疫情防控、精準營銷等眾多領域。大數據時代,企業教育培訓也走向了新的發展階段,以“數據驅動業務發展”的數字化、精準化智能學習成為未來的發展趨勢。本文探討了作為中國郵政數字化培訓平臺,中國郵政網絡學院(以下簡稱“中郵網院”)大數據分析平臺的構建,旨在提供企業級一站式大數據采集、存儲、計算、分析和應用的整體解決方案,并開展了相關的大數據和人工智能的應用研究和項目建設。
1中郵網院大數據分析與處理平臺架構
中郵網院大數據分析與處理平臺集成數據采集、數據遷移、數據治理、數據存儲、數據計算和數據應用等服務,涵蓋了數據全生命周期,構建了大數據分析的技術路線,大數據分析平臺架構如圖1所示。
2中郵網院大數據分析與處理平臺功能
中郵網院大數據平臺的核心價值體現在數據采得多、存得下、算得了、管得住和用得好,主要包含3個方面的功能:數據倉庫、數據智能分析、數據可視化。
2.1數據倉庫
平臺基于一站式大數據平臺構建企業級數據倉庫和數據集市,實現數據存儲、檢索、分析、計算,打通生產系統與大數據分析平臺的數據連接,實現郵政業務、郵儲銀行等多板塊,學員數據、培訓數據、考試數據、學習數據和資源數據等多業務系統全量數據和增量數據的定時調度,可以進行海量數據的歸集和存儲。數據倉庫開發的兩個核心環節是數據遷移和任務調度。2.1.1數據遷移生產系統產生的多源異構的業務數據,需要定時遷移到大數據分析平臺,遷移策略分為批處理和流處理兩種。批處理類似于電梯中的直梯,當一部分人員進入直梯后將其運送到相應樓層。批處理包括全量更新和增量更新,全量更新是將生產系統數據一次性同步到大數據平臺開展數據分析,適合數據量較小的表,一般為100萬以內的數據量。增量更新是在一定周期內,根據數據變化將增量數據同步到大數據平臺中。不同的源數據庫增量同步策略不同,比如源端為Oracle數據庫時,適合用OracleGoldenGate(簡稱OGG)做增量更新,需要在源端和目標端同時進行OGG配置,原理是讀取Oracle日志實現數據同步,增加、修改和刪除等DDL操作的數據均可在目標端實現同步;源端為MySQL數據庫時,適合用Canal,原理是通過時間戳或標識列等自增長列實現增量日志更新,源端增加數據可以同步到目標端,而源端修改和刪除數據時,不會在目標端體現。流處理類似于電梯中的扶梯,一旦運行就不停止,一直處于運行狀態,不斷地運送人員。流處理需要分布式消息系統和流處理引擎結合使用,分布式消息系統一般采用kafka,其優勢在于實現與業務系統的解耦,同時具有消峰和抗壓的作用,即數據量過大時可通過消息隊列進行消費。開源的流處理引擎包括Storm、SparkStreaming、Flink等。2.1.2任務調度針對不同的數據遷移方案,任務調度策略也分為兩種。一種是通過調度時間配置,以及設置調度模式和依賴關系,實現周期性工作流自動調度。調度模式分為順序調度和聚合調度:順序調度是A工作流在調度周期內未執行完成時,在下個調度時間會按照順序依次執行被延遲的調度;聚合調度是A工作流在調度周期內未執行完成時,在下個調度時間合并執行被延遲的調度。另一種是通過實時流程引擎,實現數據實時同步到大數據分析平臺。
2.2數據智能分析
支撐商業智能的大數據平臺,融合事件驅動機制和復雜SQL編程模型的流處理引擎,具備全圖形化的工具部署、運維和開發。提供數據導入、數據探索、數據預處理、特征工程、模型訓練、性能驗證、模型部署等全流程可視化建模能力,支持大規模分布式訓練和自動化模型生成,實現不同業務場景的創建和管理,實現模型全生命周期管理,可以對海量數據進行大數據和人工智能分析與處理,有效挖掘數據中隱含的特點和規律。2.3數據可視化中郵網院大數據平臺支持30余種圖表類型,可以將數據分析的結果以圖形化的形式展示,提供強大敏捷的多維度分析功能,方便業務人員分析和使用。
3中郵網院大數據分析的應用領域
3.1智能問答機器人
針對郵政員工自助服務App中事務咨詢模塊問題重復率高、內容回復時間長、內容回復缺乏專業性和規范性的問題,中郵網院利用大數據技術,對事務咨詢模塊的問題進行聚類和語義分析,提取出共性問題,構建郵政員工人力資源知識庫,并研發了智能問答機器人,通過中郵網院移動學習App向學員提供服務。智能問答機器人的上線應用,有效提升了員工的使用便捷性,員工在日常工作中遇到的難題、與員工切身利益相關的政策、與員工生產行為相關的制度等,都可以在知識服務體系中找到答案,答案形式不僅包括文字,還有圖片、視頻、音頻和鏈接等非結構化數據,上線三個月,員工問題量從每月500條提升到2000條。員工輸入問題的形式更加多元化,不僅可以通過文字輸入,還可以通過語音方式輸入,系統通過語義分析匹配出最優答案,即時進行回復,回復效率提升數十倍。在平臺交互方面,智能問答機器人集成了評分、滿意、不滿意、常見問題推薦等功能,在不明確用戶真實意圖的情況下,還可以通過多輪對話逐步挖掘需求進行答復,提升了用戶體驗。
3.2基于大數據的智能化推薦
隨著遠程培訓資源在數量和規模上的不斷擴大,網絡上的資源呈爆炸式增長,員工在享受網絡便利的同時,也受到信息過載和信息迷航的困擾,員工找不到最想要的課程資源,優質資源也無法觸達員工,員工和學習資源之間沒有形成有效的連接,導致員工能力脫節無法支撐企業高速發展。中郵網院利用大數據分析技術,對2億余條學習記錄進行了分析,深入挖掘學員潛在的學習需求、學習規律和特征偏好,結合崗位能力要求,研發了智能化的推薦算法模型,解決了推薦模型的召回、選取、排序、冷啟動等關鍵技術,構建了系統推薦、自主選擇和新課推薦三位一體的推薦體系,最終在中郵網院移動學習App上線運行,基于學員真實的學習行為數據,實現了智能化資源推薦服務,有效提升了培訓學習的個性化、科學化、針對性和體驗性。智能化推薦算法模型和推薦系統功能是根據企業培訓實際,完全自主研發,具有可擴展性強、數據實時更新、用戶操作簡單等特點。系統提供了多維度推薦場景,并與業務深度融合,實現了員工學習需求、崗位能力要求和資源內容之間的智能化匹配,真正實現了以數據為導向的智能化學習,使得培訓從“千人一面”轉變為“千人千面”,員工所學即所需,提升了培訓學習效能,賦能了員工職業發展。智能化推薦系統面向郵政業務板塊代理金融專業支局(所)經理和綜合柜員2個崗位進行試點應用,覆蓋人員6.7萬人。智能化推薦系統的上線運行,一是有效解決了員工迫切反映的培訓缺乏針對性、學習效率不高、學習體驗不好等問題;二是有效連接了員工和學習資源,較大程度上避免了信息過載和信息迷航的困擾;三是將優質資源直達員工,促進了員工從被動培訓向主動學習的轉變。通過開展滿意度調研,員工對推薦內容的整體滿意度達93.3%,系統的研發和上線為企業培訓數字化轉型進行了積極探索。
3.3基于大數據的知識服務體系構建
目前中郵網院學員獲取業務知識的主要手段是參加培訓,學員的主動性不高,不能滿足學員隨時隨地學習的需求。同時,培訓內容還存在以下問題:知識資源主要是視頻課件,呈現形式單調;知識載體主要以整個課件、整篇文檔為單位向學員進行展示,而不是以知識點的形式存儲,導致知識顆粒度較粗;知識以孤島方式存在,知識之間沒有建立聯系,沒有形成網狀的知識體系等。中郵網院利用大數據、人工智能和知識圖譜等信息化技術,以問題為導向,通過NLP自然語言處理,對大量非結構化文本數據進行分句和分詞處理,實現知識的抽取;通過圖數據庫技術,實現非結構化數據的存儲。通過知識抽取、知識融合、知識推理和知識更新,構建基于實體—關系—屬性的高級語義知識服務體系,實現知識推理、知識搜索、知識問答、知識推薦等功能,賦能郵政企業百萬員工,滿足員工對業務知識和管理知識實時獲取的需要,為員工提供精準、立體的知識服務。知識服務系統的構建,一是改變了傳統的以培訓為載體的知識灌輸形式,構建了模式更新、粒度更細、服務更智能的知識服務解決方案;二是改變了傳統問答模式中問一答一的方式,答復的內容以網狀形式進行關聯;三是最大程度細化答復內容的顆粒度,以知識點形式進行呈現,而不是以整個課程的內容向用戶進行展示,目前針對支局(所)經理和綜合柜員2個崗位梳理了15000余個知識點。知識服務體系的推廣和利用,可以顯著提高員工的工作效率,是知識傳播的有力工具和企業文化傳承的重要載體。
3.4培訓學習大數據分析
中郵網院在日常生產運營過程中,對培訓學習開展情況進行數據統計是一項非常繁重的工作,有來自郵政集團人力資源部的要求,有來自郵儲銀行和中郵保險等各板塊的需求,也有來自各省分公司對各省培訓開展情況的訴求,而中郵網院培訓系統的多樣性和多態性,增加了企業信息化架構的復雜度。目前,郵政業務、郵儲銀行、中郵保險等各分院相互獨立,各分院的業務培訓、課程學習、考試競賽、資格認證等后臺數據又相互分隔,在企業內部形成諸多數據孤島,每次數據統計分析工作都要從最底層的各業務數據庫開始抽取數據,費時費力,無法高效支撐企業經營決策,也無法應對快速變化的業務發展,底層數據的互聯互通成為困擾企業發展的痛點之一。中郵網院利用大數據技術和平臺,通過對培訓學習產生的12.6億海量數據進行采集、存儲、計算、管理、挖掘和應用,整合郵政業務、郵儲銀行、中郵保險等各分院的多源數據,打破各系統的數據孤島,進行可視化展示,轉變為數據資產,快速形成數據服務能力。一是實現對學員培訓學習行為的深入挖掘,發現學員最喜歡學習的時間集中在上午9:00~11:00、下午14:00~16:00和晚上19:00~21:00,全天24小時均有學員在學習,學習隨時在發生。二是進行了全方位的業務運行情況分析,包括移動學習App運行情況、培訓運行情況、課程學習情況、考試開辦情況、直播運行情況等,年訪問量超過6000萬人次,學習人次達7000萬,學習時長1500萬小時,年直播量1200多場。三是了解用戶群體特征,分析了各崗位群體、黨員群體、三級領導等群體的培訓開展情況,洞察不同群體的學習特點和規律,發現黨員群體的學習積極性是非黨員群體的2倍以上。四是構建了“人、培、學、考”多元化預警分析體系,使得管理人員在了解業務運行情況的前提下,根據預警分析結果及時發現業務開展過程中存在的問題和風險。通過多維度大數據的深度分析,為企業管理者提供經營決策服務,為企業精細化運營提供數據支撐。
4中郵網院大數據分析的未來方向
目前,中郵網院大數據分析平臺的應用主要集中在結構化數據的分析上,今后一段時間要將重點從結構化數據逐漸轉向非結構化數據,結合人工智能算法,實現對圖片、音頻和視頻等信息的分析,例如基于大量的音視頻課件,利用深度學習對音視頻進行場景分類、人物識別、語音識別、文字識別等多維度分析,形成層次化的分類標簽,支撐準確高效的視頻搜索,使用戶根據關鍵詞即可搜索出相關的音頻和視頻內容,內容可以具體定位到知識點,提升搜索體驗。中郵網院大數據分析平臺可通過有效洞察數據價值,從多個維度挖掘新的業務增長點,分析學員學習行為,挖掘學員學習特點和規律,提供智能問答機器人、智能推薦、知識服務體系服務,以有效應對快速變化的業務發展,為管理者提供企業經營決策支持,賦能企業數字化轉型。
作者:劉樹軍 朱德軍 柴立巖 單位:石家莊郵電職業技術學院