前言:本站為你精心整理了網絡自媒體大數據挖掘輿情控制策略范文,希望能為你的創作提供參考價值,我們的客服老師可以幫助你提供個性化的參考范文,歡迎咨詢。
摘要:隨著自媒體時代的到來,人們通過各種社交平臺表達自己的意愿越來越方便,特別是思想意識還尚未成熟的高校大學生,非常容易受到網絡負面消息的影響,成為一些不當言論的傳播者,并且該狀況具有一定的隱匿性和突發性,對高校網絡輿情監管工作提出了嚴峻挑戰。為此,提出了面向網絡自媒體大數據挖掘的高校輿情控制策略,主動獲取輿情數據,并對其進行預處理,然后對其建模以發現輿情傳播規律,最后根據分析結果給出科學、合理的引導策略,提升高校網絡輿情監管效果,為人才培養提供良好的網絡環境。
關鍵詞:自媒體大數據;數據挖掘;高校輿情控制
0引言
據我國互聯網發展現狀統計報告,截止2017年6月,我國網民規模已達到10.11億,互聯網的普及率已達到71.6%,互聯網已然在人們生產、生活、工作中扮演著舉足輕重的作用[1]。隨著互聯網運用發展領域的不斷擴大,各種網絡安全問題出現于互聯網環境中,導致各種網絡負面輿情信息在不經意間被傳播,甚至被放大。特別是到了自媒體時代,人們可以通過各種社交平臺,例如:微信、微博、QQ空間、QQ群、論壇、表白墻等表達自己的觀點、抒發自己的情緒,或是轉發好友的發帖等,這也為一些惡意或不法分子提供了可乘之機———故意煽風點火、夸大負面影響,影響整個平靜的社交環境。對于高等學校來講,大學生的思想還尚未完全成熟,判斷能力還不夠強,特別容易受到網絡負面消息的影響,而高校作為培養擁護中國共產黨領導和我國社會主義制度、立志為中國特色社會主義事業奮斗終身的有用人才的思想高地,對于整個社會的安全、穩定發揮著舉足輕重的作用。根據中國社會科學院《中國社會心態研究報告(2015)》顯示,大學生每天花費約5小時17分鐘在智能手機上,占一天時間的22%;據2015年《中國青年報》調查顯示,近75%的大學生閑暇時間用于上網,19.3%的人把網絡作為最可靠的信息來源[2]。正是因為高校學生與網絡接觸緊密,各類信息呈現出傳播渠道多、傳播速度快、傳播范圍廣的特點,因此容易形成網絡輿情。網絡輿情可以采用網絡爬蟲等技術手段高效獲得高保真大數據,通過挖掘隱藏在數據中的知識,有助于完善人們對高校大學生網絡輿情演化本質規律的認知,對網絡輿情演化過程中信息傳播和觀點擴散規律的認識[3]。2010年,巴拉巴西[4]指出,93%的人類行為是可預測的,所以高校學生網絡輿情演化趨勢可以基于網絡社交大數據進行從統計學意義上的預測與分析,這種預測結果可以為高校思想政治宣傳教育工作提供決策支持和理論參考。同時,通過科學合理的方式對網絡輿情進行引導,進一步提高高校思想政治宣傳教育成效。因此,針對高校網絡輿情大數據分析的迫切性與重要性,提出基于大數據分析視角的網絡自媒體輿情大數據分析方法,該方法包括:自媒體數據的獲取與預處理,自媒體大數據的建模與分析,以及引導策略研究,為提升高校思想政治教育工作提供支撐。
1自媒體數據獲取與預處理
1.1自媒體數據來源分析
自媒體數據具有來源廣(包括:QQ空間、QQ表白墻、微信空間、微博和論壇、各類群等)、結構復雜(體現在不同平臺數據結構的不一致性)等特點,并且這些數據中往往包含大量的輿情,因此在分析之前,需要對這些數據進行獲取、挖掘與分析,發現其中蘊含的規律。
1.2自媒體數據獲取
分析常見平臺的自媒體數據可以發現,這些數據具有的共同屬性包括:評論的用戶名、用戶ID、評論時間、評論內容、評論類型(包括:原創、轉發等)等。因此,結合自媒體數據的公共屬性設計網絡爬蟲,爬取其關鍵信息。
1.3自媒體文本數據清洗
通過分析用戶在各大社交平臺、論壇、交流群以及空間中發表的評論格式和內容可以發現,評論的內容非常豐富且隨機性大,例如:表情、表情+文字描述、中英文混合、純英文、漢語拼音、數字等;評論語句段落非常隨意;網絡用語使用頻率高;短句使用豐富等。針對自媒體數據分析問題,運用文本處理技術對自媒體數據進行清洗,剔除其中的臟數據、噪聲數據,為進一步加工處理提供高質量的數據源。
1.4自媒體文本分詞
在語義理解之前,最重要和最核心的環節是對自媒體文本進行分詞,該步驟決定了語義理解的準確性。分詞的主要任務是將一段一段的自然文本分割成一個一個獨立的詞語。對于中文文本來說,分詞的難點主要體現在,不像英文表達那樣存在自然間隔和詞劃分;對于英文文本來說,相對中文文本要更加容易,因為英文在表達過程中存在自然間隔,因此分詞難度相對較小。關于中文分詞工具,常用的包括:中科院計算所的NLPIR、Ansj分詞器、哈工大的LTP、清華大學的THULAC、斯坦福分詞器、HanLP分詞器、結巴分詞器、KCWS分詞器、ZPar分詞器以及IKAnalyzer分詞器等。關于英文分詞工具,常用的包括:NLTK、SpaCy、StanfordCoreNLP以及Elasticsearch等。結合前期研究以及實驗結果,中文分詞采用中科院的NLPIR準確率較高,英文分詞采用StanfordCoreNLP的分詞準確率較高。因此,采用以上兩種分詞工具對自媒體輿情文本進行分詞。
1.5自媒體文本關鍵詞提取
所謂關鍵詞就是文本中表達語義的重要詞語,通常是通過詞頻方式來發現,即某個詞在文本中出現的頻率和次數越多表示該詞語的重要程度越高,并且這些詞一般都是形容詞和副詞,而那些語氣詞、介詞、連詞等停用詞,例如:“了”“的”“也”“是”“為”“它”“is”“at”“which”“the”“on”等雖然出現頻率非常高,但是對提取語義幾乎沒有任何幫助,需要將其刪除。目前,也有很多研究者為了便于分詞,針對不同應用場景提出了一些應用效果非常好的停用詞庫,來提高分析效率和分詞效果。本文采用TF-IDF(Termfre-quency-inversedocumentfrequency)方法提取自媒體文本中的關鍵詞,并構建關鍵詞矩陣。同時,采用哈工大開發的停用詞庫過濾停用詞。詞頻TF計算方法為TFi=某個詞i在文本中出現的次數文本中所有詞的總數量(1)逆向文件頻率IDF的核心思想是:如果包含詞i的文檔數量越少,則IDF越大,表明該詞具有良好的類別區分能力。某個特定詞i的IDF,是由總文檔個數除以包含該詞的文檔個數,然后對商再取對數。具體計算方法為IDFi=log語料庫中文檔總個數包含詞i的文檔數+1(2)某一文本內的高頻詞,以及該詞在整個文本文檔集中的低頻文件可以產生高權重的TF-IDF。所以,TF-IDF能夠保留重要詞語,過濾掉常見詞語。TF-IDF的計算方法為[5]TF-IDFi=TFi×IDFi(3)通過觀察式(3)可以發現,TF-IDF與詞i在文本中出現的頻率正相關,與該詞i在整個語料庫中出現的頻率負相關。因此,提取關鍵詞的方法就是計算文本中每個詞的TF-IDF值,然后按照降序排列,取排在前面的若干個詞。
2基于大數據的高校網絡輿情演化趨勢及預測模型研究
2.1基于聚類分析的熱點事件發現
相同或相似關鍵詞被聚為一簇的概率也越大,對關鍵詞進行聚類分析是發現熱點事件的重要途徑與方法。考慮到缺乏先驗知識,本文擬采用半監督高斯混合聚類算法來發現熱點事件。基于流形結構的半監督混合高斯聚類算法是利用以輿情事件樣本標簽為形式的先驗信息,其目標函數為[6]f(θ)=∑Li=1∑Kk=1pckxli()logπkpxliθk()()+∑Ui=1∑Kk=1pckxui()logπkpxuiθk()()-λ∑Ui=1∑Uj=1Di,jwu×ui,j+2∑Li=1∑Uj=1Di,jwl×ui,j()(4)其中,L和U分別表示有標簽和無標簽的輿情事件樣本集大小;xli和xui分別表示有標簽和無標簽的輿情事件樣本;若輿情事件樣本xli屬于第k個高斯分布,則條件概率pckxli()=1,反之為0;wi,j表示近鄰圖中邊的權重;Di,j表示輿情事件樣本xi和xj之間的距離。考慮到需要分析和處理的輿情事件數量非常龐大,所需的計算量也非常大。為了提高算法在處理大規模文本聚類時的性能,采用分布式并行處理的思路對聚類算法進行優化,基于Ma-pReduce的聚類模型[7],具體如圖1所示。
2.2語義網絡構建與分析
將高頻詞的兩兩共現關系進行量化,并且以圖形化方式進行展現,反映詞與詞之間的結構關系,從而構建語義網絡。通過構建這種語義關系網絡,將直接展現出高頻詞之間的層次關系、親疏關系,便于分析。為了更加準確地反映熱門事件或是輿情熱點之間的關系,需要在圖的邊上附加權重,圖的兩個節點關系越緊密權重就越大。根據社團內部事件之間權重大于社團之間邊權重的原則,將那些關系緊密的事件或是輿情熱點進行劃分就形成網絡社團。其中,邊權重的設置決定了社團的密度、大小、結構以及社團之間的聯系,因此,需要根據分析需求不斷調整與優化權重。
2.3輿情情感傾向分析
在構建好網絡社團(即熱門事件或是熱點輿情的語義網絡)的基礎上,就能夠分析對其描述的關鍵詞的情感態度(主要包括:中立、消極和積極三種),來反映用戶關于熱門事件或是輿情熱點的情感態度以及強度,然后以語句為單位計算總和,得到情感類別。進一步地,計算整個輿情文本中的所有語句,就可以判定用戶關于輿情的情感態度和強度。需要注意的是,在計算情感態度和強度時,需要考慮那些直接表達情感傾向的詞語,還需要注意形容詞以及副詞等修飾詞,例如:很、非常、特別、太等,這些詞語能夠增強情感態度。因此,在分詞過程中,需要準確識別出形容詞、副詞以及否定詞,并建立對應的詞庫,以便對這些情感詞進行合理賦值;然后計算這些情感詞的加權值,獲得總體情感態度。
2.4輿情演化模型構建及引導策略建議
不同參與人在不同自媒體平臺上對同一事件的關注側重點也不一樣,又由于眾多參與人對同一熱點事件進行了自我觀點的表達,這些觀點之間可能因為某種因素又發生了碰撞,進一步增強了事件的熱度,最終演化成了網絡熱點事件。運用統計分析與數據挖掘方法對事件參與人的行為以及情感態度進行挖掘,以發現不同觀點的傳播和演化規律。通過傳播演化模型的構建以及分析,有助于為形成正確的輿論導向提供科學、合理的建議,例如:溯源網絡謠言,并針對其根源和原因發布正確的輿論導向,引導輿論向好發展,從而掌握輿論的主導權等。
3結語
高校作為立德樹人,培養高質量人才的主陣地,正面的輿論導向是必備的基礎環境。而隨著自媒體時代的到來,高校大學生利用網絡表達自己想法的渠道越來越豐富,產生了大量的社交數據以及潛在的輿情,因此運用大數據技術對網絡輿情進行分析與控制成了必然趨勢。本文從正確認識、預測與處置高校網絡輿情的角度出發,通過研究主動獲取輿情數據,并對其建模的方法,以期挖掘輿情傳播的內在規律,為高校輿情管理人員提供決策支持,促進高校思想政治宣傳教育工作成效。
作者:王喜賓 趙歡 顧英 單位:貴州理工學院大數據學院 貴州理工學院貴州省電力大數據重點實驗室 貴州理工學院招生就業處