前言:本站為你精心整理了遺傳算法優化BP神經網絡探究范文,希望能為你的創作提供參考價值,我們的客服老師可以幫助你提供個性化的參考范文,歡迎咨詢。
摘要:針對電信客戶流失檢測率較低的問題,基于遺傳算法來優化bp神經網絡模型。首先對客戶信息進行可視化分析并選取合適的特征,使用皮爾遜系數對特征進行相關性判斷,篩選出有效特征;其次運用遺傳算法對BP神經網絡中的初始化權值閾值進行編碼,經選擇、交叉以及變異等操作后得出最優的權值閾值;最后運用BP神經網絡進行電信客戶流失預測。經實驗驗證,該模型的預測結果優于傳統的BP神經網絡模型預測結果。
關鍵詞:遺傳算法;BP神經網絡;客戶流失
0引言
隨著世界經濟的發展,客戶流失問題逐漸受到人們的重視[1-3]。電信公司為此提出了3個主要策略,即獲得新客戶、追加銷售現有客戶以及延長客戶的保留期。考慮到每種策略的投資回報率(ReturnonInvestment,RoI)價值,延長客戶的保留期是最有利的策略,其成本遠低于獲得新客戶[4-6]。對于電信客戶流失預測,國內外有大量的研究。為了處理電信客戶流失的多維數據,肖等人提出了一種集成方法,將元代價敏感學習、半監督學習以及Bagging集成等技術相結合,設計了代價敏感的客戶流失預測半監督集成模型[7]。張等人將生存分析與深度學習理論相結合,即運用深度學習模型對電信客戶流失數據進行建模,根據建模中客戶的生存狀態和時間對電信客戶進行解析,從而判斷出客戶是否流失[8]。在電信客戶流失預測中,客戶信息特征具有多維性和復雜性,數據處理對客戶流失預測的準確性具有較大影響。基于以上問題,結合國內外電信客戶流失預測算法,提出遺傳算法優化BP神經網絡的耦合模型。
1相關技術原理
1.1BP神經網絡原理
反向傳播(BackPropagation,BP)神經網絡于1986年由Rumelhart和McCelland領導的科學家小組提出,是一種按誤差逆傳播算法訓練的多層前饋神經網絡。BP神經網絡能學習和存貯大量的輸入與輸出模式映射關系,無需事前揭示描述這種映射關系的數學方程。其學習規則是使用最速下降法,通過反向傳播不斷調整網絡的權值和閾值,從而使網絡的誤差平方和達到最小[9]。BP神經網絡拓撲結構可分為3層,分別是輸入層、隱藏層以及輸出層。其中,隱藏層的神經元個數計算公式為:h=m+n+a(1)式中:m為輸入層節點的個數,n為輸出層節點的個數,a一般取1~10內的整數。隱藏層的個數越多,誤差范圍越小。
1.2遺傳優化算法
遺傳算法是模擬達爾文生物進化論中自然選擇和遺傳學機理等生物進化過程的計算模型,是一種通過模擬自然進化過程搜索最優解的方法。依據BP神經網絡的拓撲結構,確定優化BP神經網絡權值閾值的參數個數,從而確定遺傳算法中個體的編碼長度,再根據適應度函數計算個體的適應值,經過選擇、交叉、變異操作得到最優的權值閾值。1.2.1輪盤賭算法。輪盤賭算法是為了防止適應度數值較小群體中的個體被直接淘汰而提出的,每一個個體被選中的概率與其適應度函數值大小成正比關系。適應度數值越高,它被選中的概率就越大。設某一個體xi的適應度值為f(xi),則部分被選中的概率為:()()()1iiNjjfxPxfx==∑(2)累計概率為:()()1iijjqxpx==∑(3)式中:xi和xj都表示某個個體。首先,計算每個部分的被選中概率p(xi)和累積概率q(xi)。其次,隨機生成一個數組m,數組m中的元素取值范圍為[0,1]。若累積概率q(xi)大于數組中的元素m[i],則個體xi被選中;若小于m[i],則比較下一個個體xi+1,直至選出一個個體為止。最后,若需要選擇N個個體,則將上述步驟重復N次即可。1.2.2兩點交叉算法。兩點交叉是指在個體染色體中隨機設置兩個交叉點,然后進行部分基因交換。先從編碼串中不定向選出兩個交叉點,再對兩個交叉點進行部分染色體交叉,交叉后產生新個體,如圖1所示。其中,左側為交叉前的個體,右側為兩點交叉后產生的新個體。1.2.3高斯變異高斯變異是指進行變異操作時,用符合均值為μ、方差為S2的正態分布的一個隨機數替代原有的基因值。根據正態分布的特性,高斯變異重點搜索原個體附近的某個局部區域。高斯概率密度公式為:其中,標準高斯概率密度的μ和S分別設置為0和1。高斯變異不僅提高了優化算法的優化精度,而且有利于跳出局部最優區域。
2模型與實驗分析
本文使用的電信流失客戶數據集來自Kaggle平臺,共有7043條用戶樣本,其中未流失客戶5174人、流失客戶1869人。每條樣本包含21列電信客戶特征,特征信息可分為客戶基本信息、開通業務信息、簽署的合約信息以及目標變量。遺傳算法優化BP神經網絡的電信客戶流失模型如圖2所示。讀取電信客戶流失數據并進行特征提取,特征提取過程包括可視化分析、皮爾遜相關系數判斷、獨熱編碼處理以及歸一化處理。電信客戶流失數據信息特征如表1所示。皮爾遜相關系數(Pearsoncorrelationcoefficient,PCCs)又稱皮爾遜積矩相關系數,兩個變量之間的皮爾遜相關系數定義為兩個變量之間的協方差和標準差的商,取值范圍為[-1,1][10]。根據電信客戶流失數據信息,TotalCharges、Tenure以及MonthlyCharges特征為數值特征,對這3列特征建立皮爾遜相關系數矩陣,如圖3所示。由圖3可知,TotalCharges與Tenure、MonthlyCharges相關性較大,相關系數超過0.6,容易引起預測結果降低,故刪除TotalCharges冗余特征。基于遺傳算法優化BP神經網絡的電信客戶流失預測中,將電信客戶流失真實值分別與BP模型預測值、遺傳算法優化BP模型(GABP)的預測值進行對比,電信客戶流失數據經歸一化處理后的目標變量存在兩個數值1和0,其中1表示流失的客戶,0表示未流失的客戶。根據圖4,基于遺傳算法優化BP神經網絡的電信客戶流失預測值比基于BP神經網絡的電信客戶流失模型的預測值更接近于真實值。BP模型與遺傳算法優化BP模型的預測值和真實值誤差對比如圖4所示。模型預測值與真實值的誤差越接近0,模型效果越好。當誤差為0,表示預測值等于真實值。由圖5可知,基于遺傳算法優化BP神經網絡的電信客戶流失預測誤差比基于BP神經網絡的電信客戶流失預測誤差更接近于0,表示遺傳算法優化BP神經網絡的模型效果好于單獨的BP神經網絡模型。將兩種模型的平均絕對誤差(MeanAbsoluteError,MAE)和均方根誤差(RootMeanSquareError,RMSE)進行對比,MAE和RMAE的值越小越好,具體結果如表2所示。
3結語
通過遺傳算法優化BP神經網絡來構建電信客戶流失模型,采用數據可視化分析法去除冗余特征,同時運用皮爾遜相關系數去除相關系數較大的特征,提高了數據預測的精準性。運用遺傳算法優化BP神經網絡的權值閾值,其結果優于傳統BP神經網絡,提高了電信客戶流失的分類準確率和預測精準性,具有一定的使用價值。
作者:張三妞 單位:昆明理工大學信息工程與自動化學院