前言:想要寫出一篇令人眼前一亮的文章嗎?我們特意為您整理了5篇卷積神經網絡方法范文,相信會為您的寫作帶來幫助,發現更多的寫作思路和靈感。
中圖分類號:TP183 文獻標識碼:A 文章編號:1007-9416(2015)12-0000-00
1 引言
卷積神經網絡(Convolutional Neural Network, CNN)具有良好的處理能力、自學能力及容錯能力,可以用來處理復雜的環境信息,例如,背景情況不明,推理規則不明,樣品存有一定程度的缺陷或畸變的情況。所以,卷積神經網絡被廣泛應用于目標檢測、物體識別和語音分析等方面[1]。現場可編程門陣列(Field Programmable Gate Array, FPGA),作為可編程使用的信號處理器件,其具有高集成度、運行高速、可靠性高及采用并行結構的特點,易于配合CNN處理數據。
2 國內外研究現狀
2.1 神經網絡的模型結構
根據研究角度、數據傳遞方式、數據處理模式、學習方法等的不同,多種神經網絡模型被構建出來。目前主要有四種模型被廣泛應用中[2][3]:
(1)前饋型神經網絡。此類神經元網絡是由觸突將神經原進行連接的,所以網絡群體由全部神經元構成,可實現記憶、思維和學習。此種類型的網絡是有監督學習的神經網絡。(2)遞歸型神經網絡。此種神經網絡又稱為反饋網絡,以多個神經元互相連接,組織成一個互連的神經網絡,使得電流和信號能夠通過正向和反向進行流通。(3)隨機型神經網絡。此種神經網絡的運行規律是隨機的,通過有監督學習方法進行網絡訓練。(4)自組織競爭型神經網絡。此種神經網絡通過無監督的學習方法進行網絡訓練,一般具有兩層網絡結構,輸入層和競爭層。兩層間的各神經元實現雙向全連接。
2.2 神經網絡的學習方法
神經網絡的學習方法用來解決調整網絡權重的問題,是指完成輸入特征向量映射到輸出變量之間的算法,可以歸納為三類[4-7]:
(1)有監督的學習。在學習開始前,向神經網絡提供若干已知輸入向量和相應目標變量構成的樣本訓練集,通過給定輸入值與輸出期望值和實際網絡輸出值之間的差來調整神經元之間的連接權重。(2)無監督的學習。此種學習方法只需要向神經網絡提供輸入,不需要期望輸出值,神經網絡能自適應連接權重,無需外界的指導信息。(3)強化學習。此種算法不需要給出明確的期望輸出,而是采用評價機制來評價給定輸入所對應的神經網絡輸出的質量因數。外界環境對輸出結果僅給出評價結果,通過強化授獎動作來改善系統性能。此種學習方法是有監督學習的特例。
2.3 卷積神經網絡的結構
卷積神經網絡為識別二維或三維信號而設計的一個多層次的感知器,其基本結構包括兩種特殊的神經元層,一為卷積層,每個神經元的輸入與前一層的局部相連,并提取該局部的特征[8];二是池化層,用來求局部敏感性與二次特征提取的計算層[8]。作為部分連接的網絡,最底層是卷積層(特征提取層),上層是池化層,可以繼續疊加卷積、池化或者是全連接層。
3 FPGA實現神經網絡的并行體系結構
(1)卷積神經網絡的計算架構。卷積神經網絡可以使用“主機”與“FPGA”相結合的體系模型,主機用來控制計算的開始和結束,并在神經網絡前向傳播計算過程中,提供輸入圖像等數據。主機與FPGA之間的通信可以通過標準接口,在主機進行任務分配的過程中可以對FPGA上的卷積神經網絡進行硬件加速。當卷積神經網絡開始啟動計算,通過標準接口接收到主機傳輸的圖像時,FPGA開始進行計算,并且使用FPGA中的存儲器來存儲卷積核權值。FPGA將會先完成卷積神經網絡前向傳播過程的計算,然后將其最后一層計算得到的結果輸出給主機。(2)卷積神經網絡并行體系架構。一、單輸出并行結構:每次計算一個輸出圖像,其中會將多個輸入圖像和多個卷積核基本計算單元同時進行卷積運算,然后將全部卷積運算的結果與偏置值進行累加,再將結果輸入非線性函數和自抽樣子層進行計算。二、多輸出并行結構:若卷積神經網絡的計算單元中含有多個單輸出的并行結構,那么輸入數據可同時傳送到多個單輸出計算單元的輸入端,從而組成多個單輸出計算單元組成的并行結構。在卷積神經網絡的并行計算結構中,每個卷積核計算單元在進行卷積操作時都要進行乘加運算,所以,有必要將單個的卷積運算拆分實現并行化,并且可以嘗試將同一層內的多個卷積運算進行并行化。
4 結語
本文對卷積神經網絡進行了介紹,總結了國內外的研究現狀,結合卷積神經網絡運算的特點與FPGA的快速計算單元數量及功能方面的優勢,嘗試闡述了在FPGA映射過程的卷積神經網絡的并行體系結構。
參考文獻
[1] Fan J,Xu W,Wu Y,et al. Human tracking using convolutional neural networks[J].IEEE Transactions on Neural Networks,2010(10):1610-1623.
[2] 楊治明,王曉蓉,彭軍.BP神經網絡在圖像分割中的應用.計算機科學[J].2007(03):234-236.
[3] Simon Haykin . Neural networks ,a comprehensive foundation[M].second edition,Prentice Hall,1998.
[4] Herta J , et al.Introduction to Theory of Neural Compution[M].Sant Fee Complexity Science Series,1991.156.
[5] 戴奎.神經網絡實現技術[M].長沙:國防科技大學出版社,1998.
[6] 焦李成.神經網絡系統理論[M].西安:西安電子科技大學出版社,1996.
關鍵詞:手寫數字識別;卷積神經網絡;應用
手寫體數字識別在郵政、金融等領域應用廣泛。對于數字識別,人們往往要求識別器有很高的識別可靠性,數字識別的錯誤所帶來的影響比文字識別等其他識別所帶來的影響更大,特別是有關金融方面的數字識別錯誤所帶來的后果是無法想象的,識別錯一個數字,這其中的差距可能是幾的差距,也可能是幾十、幾百的差距,這些都還是小問題;但更有可能這一個數字代表的差距是幾萬、幾千萬甚至幾億乃至更多,那么這個錯誤造成的損失就無法估量了。因此,O計出有著高可靠性與高識別率的數字識別系統已經成為了字符識別領域一個非常重要的環節。
1 網絡模型和數據庫及學習算法的選擇
1.1 關于Mnist數據庫的介紹
首先,Mnist是NIST數據庫的一個優化子集。它是一個有著60000個訓練樣本集與10000個測試樣本集的手寫體數字數據庫。此數字庫一共有4個文件。
此數字庫的所有樣本集都有圖像文件以及標簽文件。標簽文件的作用是用來儲存樣本集中的每個樣本的數值標簽,而每一個樣本的圖像數據信息則是由圖像文件存儲著。此數據庫的圖像數據均保存在二進制文件之中,且每個樣本圖像的大小均為28*28。
1.2 數字識別的模型選擇
手寫體數字雖然只有0~9十個數字,但由于寫法因人而異,不同地域同樣一個數字有多種不同的寫法,每個人都有自己的書寫習慣。且一些紙質差異、筆畫粗細、光線問題、位置、尺度大小等等多種因素都能對輸入產生影響。考慮到這些因素,為讓網絡有良好的識別能力,我們這里采用在圖像識別領域有著優秀表現的卷積神經網絡作為此數字識別系統的訓練模型。
1.3 學習算法的選擇
一個優秀的網絡模型必須具備良好的學習算法,每個學習網絡都有著相對來說較為合適自己的學習算法,而并不是說越高端的算法就越好。在此文中,我選擇的學習算法是較為成熟的BP算法。此算法在文字前面有些許介紹,此處不再多做說明。
2 基于卷積神經網絡的數字識別系統的設計
2.1 輸入層以及輸出層設定
根據樣本的特征與此網絡的網絡結構,可以大概判斷出輸入層與輸出層該如何設置。隱含層的個數可以是一個,也可以是多個,這與要分類的問題有關。
前文提及到在mnist數據庫中,所有的圖像都是28*28大小的,且以整個圖片的像素形式存儲在數據文件之中。每張圖像大小為28*28,故一個圖片像素點個數為784個。這里,卷積神經網絡的輸入即為這784個像素點。
因為數字識別需要識別的是0~9這十個數字,即需要識別十種字符類別,所以將這個神經網絡輸出層的神經元節點數設置為10。
2.2 網絡的中間層設置
卷積神經網絡的中間層有兩個部分,即卷積層(特征提取層)與下采樣層(特征映射層),由第二章中圖2-1所示,C1、C3為卷積層,S2、S4為降采樣層。
1)激活函數選擇
激活函數選擇sigmoid函數。同樣,在第二章有所提及。Sigmoid函數是嚴格遞增函數,能較好的平衡線性與非線性之間的行為,比較貼近生物神經元的工作。相比于其他函數,sigmoid函數還存在著許多優勢,比如光滑性、魯棒性以及它的導數可以用它自身來表示。
sigmoid函數為:
(1)
其中,x為神經元凈輸入。
激活函數導數為:
(2)
2)卷積層設計
圖像經過卷積核對特征圖進行卷積,之后再經過sigmoid函數處理在卷積層得到特征映射圖。特征映射圖相比于原圖像,其特征更為明顯突出。
卷積運算其實就是一個加權求和的過程。離散卷積是本文所選取的方法,規定卷積核在水平和豎直兩個方向每次都是移動一個像素,即卷積的步長為1。
3)下采樣層的設計
根據圖像局部相關性這一原理,為了降低網絡的學習維度、減少需要處理的數據量且保留圖像的有用信息,可以對卷積后的圖像進行下采樣。這里,我們采取的是取卷積層4個像素點平均值為下采樣層的一個像素點的方法。這樣可以降低網絡規模。
2.3 網絡總體結構CNN-0
根據LeNet-5結構,再結合上文中的對輸入層、輸出層、中間層的設計,完成了如圖3-1所示的基本網絡結構:
相比于LeNet-5,CNN-0做了一些修改,并非完全按照LeNet-5網絡結構模型。Sigmoid函數是本網絡中的激活函數,選擇這個函數的好處在于可以讓所有層得到的輸出都在區間[-1,1]之內。網絡訓練的學習率固定值為1或者是衰減的學習速率。經過卷積后的一維向量與輸出層沒有沿用LeNet-5的徑向基函數網絡,而是采取全連接方式,省去了F6層。
3.3 卷積神經網絡訓練過程
在模式識別中,學習網絡有無指導學習網絡與有指導學習網絡兩個類別。無指導學習網絡一般是用來進行聚類分析,本文采取的是有指導學習網絡。
卷積神經網絡其實就是從輸入到輸出的一種映射,它可以學量的映射關系,只需要用現有的模式對網絡進行訓練,網絡就能具備映射能力。而不需要輸入與輸出之間的精確的關系。
訓練算法與傳統的BP算法相差無幾(BP算法在第二章有做概述),主要可分為四個步驟,而這四個步驟可以歸為向前傳播階段與向后傳播階段:相前傳播:
1)隨機的從樣本集中獲取一個樣本(A, ),然后將A輸入至網絡中;
2)根據公式(3)計算出實際輸出:
(3)
向后傳播:
1)計算和理想輸出之間的差;
2)根據極小化誤差方法調整權值矩陣。
結語
在手寫數字識別這一塊,相對來說比較有難度的應該就是脫機自由手寫字符識別了,不過本文所研究的并不是這一系統,本設計是一個基于卷積神經網絡的手寫數字識別系統,因卷積神經網絡的局部感受野和降采樣以及權值共享、隱性特征提取等優點,它在圖像識別領域得到了非常廣泛的應用。此程序是在Caffe這個框架上進行運行的,操作系統為Linux系統ubuntu14.04版本。Caffe是一個開源的深度學習框架,也可以說是一個編程框架或者模板框架,它提供一套編程機制。因此,本文所需要實際的卷積神經網絡就可以根據這個框架來進行構建。
參考文獻:
[1]張偉,王克儉,秦臻.基于神經網絡的數字識別的研究[J].微電子學與計算,2006年第23卷第8期.
關鍵詞: 列車車號; 車號識別; 卷積神經網絡; LeNet?5
中圖分類號: TN911.73?34; TP391 文獻標識碼: A 文章編號: 1004?373X(2016)13?0063?04
Abstract: For the character recognition of freight train license, the improved recognition method based on convolutional neural network LeNet?5 is proposed. Considering the structural features of the hierarchical convolutional neural network and local field, the parameters of quantity and size of each layer feature pattern in the network were improved correspondingly to form the new network model suitable for the freight train license recognition. The experimental results show that the proposed method has strong robustness to solve the license breakage and stain, and high recognition rate, which provides a guarantee for the accuracy of the entire license recognition system.
Keywords: train license; license recognition; convolutional neural network; LeNet?5
0 引 言
目前貨運列車車號識別系統[1?2]主要是基于RFID技術實現的,但是,由于該系統的準確性依賴于列車底部安裝的RFID標簽,而RFID標簽容易損壞、丟失,因此,此類系統無法保證車號識別的準確性。為此,研究者開發了基于圖像的貨運列車車號識別系統,系統根據視頻采集到的圖像,利用模糊集合論[1?2]、人工神經網絡[3]、支持向量機[4]以及隱馬爾可夫模型[4]等技術進行車號字符的識別。但是,由于貨運列車車號存在因噴涂方式而導致的單個字符斷裂,或者列車長期的野外運行導致的車廂污損,車號字符的殘缺等現象,這使得目前的基于圖像的貨運列車車號識別系統的魯棒性與識別率還有待進一步提高。
LeNet?5[5?7]是由YannLecun等人提出的一種專門用于二維圖像識別的卷積神經網絡,該網絡避免了人工提取特征依賴于主觀意識的缺點,只需要將歸一化大小的原始圖像輸入網絡,該網絡就可以直接從圖像中識別視覺模式。LeNet?5把特征提取和識別結合起來,通過綜合評價和學習,并在不斷的反向傳播過程中選擇和優化這些特征,將特征提取變為一個自學習的過程,通過這種方法找到分類性能最優的特征。LeNet?5已經成功應用于銀行對支票手寫數字的識別中。
為此,本文將卷積神經網絡LeNet?5應用于列車車號字符的識別中,為了使之適用于列車車號字符的識別需求,去除掉了LeNet?5中的一些針對手寫字符識別而特別設計的連接方式及參數,并在此基礎上,改變網絡中各層特征圖的數量以形成新的網絡模型。
1 LeNet?5的改進
卷積神經網絡可以從很多方面著手改進。諸如多層前饋網絡,可以考慮在誤差函數中增加懲罰項使得訓練后得到趨向于稀疏化的權值,或者增加一些競爭機制使得在某個特定時刻網絡中只有部分節點處在激活狀態等。本文主要從卷積神經網絡的層次化以及局部鄰域等結構上的特點入手,考慮卷積神經網絡中各層特征圖數量及大小對網絡訓練過程及識別結果的影響。
以LeNet?5結構為基礎,去除掉LeNet?5中的一些針對手寫字符識別而特別設計的連接方式及參數,得到改進后的神經網絡。在此基礎上,改變網絡中各層特征圖的數量以形成新的網絡模型。定義一種新的網絡模型,將其命名為LeNet?5.1,該網絡結構與LeNet?5基本相同,主要做出以下改變:
(1) 將原先LeNet?5所采用的激活函數由雙曲正切函數修改為Sigmoid函數,此時,網絡中所有層的輸出值均在[0,1]區間內,輸出層的最終結果也將保持在[0,1]區間內。
(2) 省略掉F6層,將輸出層與C5層直接相連,連接方式為全連接,而不是原LeNet?5中所采用的徑向基函數(RBF)網絡結構。
(3) 簡化原LeNet?5中的學習速率。原LeNet?5網絡中采用的學習速率為一個特殊的序列,而在本網絡中將學習速率固定為0.002。
(4) 輸入數據原始尺寸為28×28,采取邊框擴充背景像素的方法將圖像擴充至32×32。
之所以做以上相關改動,是因為原始的LeNet?5就是專門為手寫字符識別任務而特殊設計的,這就造成了LeNet?5網絡中相關的預處理及參數的選擇過程或多或少均帶有一些針對特定問題的先驗知識。例如激活函數中參數的選擇,學習速率定的速率序列以及數據預處理殊的填充方式等,這些特定的設計使得LeNet?5在其他任務的識別過程中并不一定適用,或者需要進行長期的觀察實驗以選得一組針對特定任務的較好的值,造成了LeNet?5不能快速的應用于除手寫字符外其他的識別任務中。
2 改進后的網絡對列車車號字符的識別
車號經過分割之后為一個個的單字符圖像,采用邊框擴充背景像素的方法將其歸一化為32×32,如圖1所示。
由圖1中可以看出,待識別的字符圖像質量不高,有的數字字符出現殘缺、斷裂或者嚴重變形。這都給識別任務提出了一定的挑戰。
本文采集到的車號圖像來自于不同型號的貨運列車。從中選取400幅圖像作為訓練集,另外選取400幅圖像作為測試集。用上一節提出的LeNet?5.1網絡進行訓練,誤分類率曲線如圖2所示。可以看出,在LeNet?5.1訓練過程中,訓練MCR(Misclassification Rate)和測試MCR的變化過程相對穩定,驗證了改進后網絡結構的合理性。在經過16次的迭代之后,測試MCR降至最低(5.75%),之后基本保持穩定,即16次迭代之后,網絡達到了當前的最佳訓練效果,達到了收斂狀態。這時,訓練MCR為0.5%,測試MCR是5.75%。
訓練過程中的誤分類率曲線
而針對相同的數據,采用原始的LeNet?5進行訓練和測試后,誤分類率如圖3所示。從圖3中可以看出,LeNet?5經過了18次的迭代后,測試MCR才達到相對穩定的狀態,降至6%,最終的訓練MCR為1%。相比之下,經過簡化和改進的LeNet?5.1,由于改進了原始的LeNet?5中專門為手寫字符識別任務而特殊設計的一些預處理及函數選擇等固定模式,并且精簡了網絡結構,使得LeNet?5.1在列車車號的識別方面具有了更快的訓練速度和收斂速度,另外,最終達到的準確度也有所提升。
在證明了改進后的LeNet?5.1網絡的合理性之后,增加訓練圖像的規模,采用10 000幅車號數字字符圖像用來訓練,5 000幅用來測試。為了與其他方法進行比較,采用相同的訓練數據對車號識別中常用的三層BP網絡進行訓練和測試,這里采用的BP網絡隱含層節點數量為450,學習速率采用0.01。實驗結果比較如表1所示。從表1可以看出,改進后的LeNet?5.1網絡的識別率比BP網絡的識別率高出4.62個百分點,在識別速度方面,LeNet?5.1也明顯優于傳統的BP神經網絡。
3 針對車型號字母識別而改進的神經網絡及其結果
貨運列車車號的組成是由車型號與車號共同組成的,因此還需要對車型號進行識別,車型號中除了有阿拉伯數字字符之外,還有很多表示車種及車廂材質等屬性的英文字母,這些英文字母同樣采用卷積神經網絡來識別。由于車型號很多,初期針對若干常用型號的列車進行識別,以測試網絡的性能,后期對全車型進行識別。
3.1 常用列車車型的識別
在試運行階段主要識別的車型局限于7種主要的車型:C64K,C64H,C70A,C70E,C80,C62AK和C62BK。由于車種都為敞篷車(第一個大寫字母C),主要對后面代表該車型載重量的兩位數字以及最后代表車廂材質等屬性的字母進行識別。考慮到車型號字符串的固定模式,如圖4所示,可以分別建立兩個不同的卷積神經網絡分別用來識別數字和字母,由于之前已經解決了數字的識別問題,接下來主要進行字母的識別。要識別的代表車廂材質的字母共有6個:K,H,A,E,A和B,為了盡可能的避免因字母分割問題而導致的識別錯誤,把AK和BK分別作為一個整體來識別,那么需要識別的字符組合變為:K,H,A,E,AK和BK。由于識別種類的減少,可以對網絡模型LeNet?5.1進行相應的簡化,命名該模型為LeNet?5.2。
LeNet?5.2是在LeNet?5.1的基礎上進行改動而得到的:
(1) 卷積層C1的特征圖由6個減少為4個,相應地,S2層的特征圖也由6個減少為4個。
(2) 卷積層C3的特征圖由16個減少為11個,相應地,S4層的特征圖也由16個減少為11個。
(3) 卷積層C5的特征圖個數由120個減少為80個。
(4) 輸出分類的數目由10個減少為6個。
另外,卷積層C3層與次抽樣層S2層的連接情況如表2所示。
表2的連接方式采用與表1相同的思想,每一列都說明了C3層中的一個特征圖是由S2中的那幾個特征圖結合而成。卷積層C3中第0個至第5個特征圖分別與次抽樣層S2中的兩個特征圖相連接,一共6種組合。C3中的這6個特征圖負責抽取上一層中某兩個特征圖所潛在的特征。C3層中第6個至第9個特征圖中每個特征圖分別對應上一層中的3個特征圖的組合,而C3層中最后一個特征圖則與上一層中所有的特征圖相連接。這樣卷積層C3中的特征圖就包含了次抽樣層S2中多個特征圖的所有組合,這樣使得卷積層C3抽取到的特征比S2層更抽象、更高級,同時,相對于輸入數據,C3層相比S2層具有更好的對位移、扭曲等特征的不變性。
相比LeNet?5.1,LeNet?5.2將網絡層中的特征圖數量做了相應的削減,減少了網絡中可訓練參數的數量。
實驗數據來自以上提到的7類常用車型。經過前面過程的定位和分割之后,將分割之后代表車廂材質等屬性的字母圖像收集起來。本實驗中,共收集到6種代表不同車廂材質屬性的字母共800幅,其中400幅用作訓練數據,另外400幅用作測試數據。
圖5為LeNet?5.2使用以上數據訓練過程中得到的MCR曲線圖。由圖5中可以看出,在經過13次迭代之后,測試MCR達到最低的3.25%,并且在隨后的迭代過程中基本保持穩定,而對應的訓練MCR為0.75%。
3.2 全車型識別
經過對鐵道行業標準《鐵路貨車車種車型車號編碼》(TB2435?93)里面包含的所有車型號進行統計,除了10個阿拉伯數字外,包括了除O,R,V,Z四個字母外所有的大寫英文字母,總共有32類字符。
訓練過程中的誤分類率曲線
針對車型號的識別需求,本文在LeNet?5.1的基礎上提出了一種新的網絡模型,稱之為LeNet?5.3。與LeNet?5.2相反,LeNet?5.3是在LeNet?5.1的基礎上對網絡中各層的特征圖數量進行擴充:
(1) 卷積層C1的特征圖由6個增加至8個,相應地,S2層的特征圖也由6個增加至8個。
(2) 卷積層C3的特征圖由16個增加至24個,相應地,S4層的特征圖也由16個增加至24個。
(3) 卷積層C5的特征圖個數由120個增加至240個。
(4) 輸出層神經元的個數由10個增加至32個。
其中卷積層C3層與次抽樣層S2層的連接情況參考LeNet?5.2所采用的原則,使卷積層C3中的特征圖包含次抽樣層S2中多個特征圖的主要組合。
與LeNet?5.1相比,LeNet?5.3需要有更多的輸出類別,各層的特征圖數量也做了相應的增加,以增加整個網絡的識別性能。為了驗證改進后的LeNet?5.3的性能,收集了大量真實列車車廂圖片,經過車號定位和分割之后,將單個的數字字符或者大寫字母字符圖像尺寸依次歸一化為32×32,分別建立訓練圖像庫和測試圖像庫。
由于LeNet?5.1各層的特征圖數量多,因此該網絡涉及到的可訓練參數也大大增加,這也意味著需要更多的數據樣本用于網絡訓練。若訓練集和測試集規模依然采用跟前面實驗中一樣的各400幅,訓練過程中的誤分類率曲線如圖6所示,圖6中的曲線變化非常不穩定,波動較大。測試MCR達到最低點后又突然升高,不能獲得穩定的分類結果,訓練過程無法收斂。
網絡訓練過程中無法收斂的主要原因在于相比網絡中過多的需要訓練確定的權值,數據集規模過小,已然不能滿足學習的要求。從特征圖角度來看,網絡無法通過不充足的訓練樣本學習到穩定而有效的特征圖組合,從而導致了網絡不收斂。要解決這個問題需要加大測試樣本的數量。
為了訓練和測試LeNet?5.3,對數據集進行了擴充:訓練圖像庫包含字符圖像4 000幅,測試圖像庫包含字符圖像2 000幅。訓練過程中的誤分類率曲線如圖7所示。從圖7中可以看出,經過32次迭代之后網絡趨于收斂,并且達到了較好的識別率。
4 結 語
本文針對貨運列車車號識別的難題,提出了基于卷積神經網絡LeNet?5改進后的識別方法,主要對卷積神經網絡中各層特征圖數量及大小進行了改進。且與傳統的BP網絡進行了比較,從實驗結果可以看出,改進后的卷積神經網絡無論在魯棒性還是識別率以及識別速度上都優于BP網絡,可以很好地勝任列車車號識別任務。
參考文獻
[1] 宋敏.鐵路車輛車號自動識別系統的研究和開發[D].天津:河北工業大學,2011:1?5.
[2] LU S, CHEN B M, KO C C. Perspective rectification of document images using fuzzy set and morphological operations [J]. Image and vision computing, 2005, 23(5): 541?553.
[3] SHAH P, KARAMCHANDANI S, NADKAR T, et al. OCR?based chassis?number recognition using artificial neural networks [C]// Proceedings of 2009 IEEE International Conference on Vehicular Electronics and Safety (ICVES). [S.l.]: IEEE, 2009: 31?34.
[4] CHEN D, BOURLARD H, THIRAN J P. Text identification in complex background using SVM [C]// Proceedings of 2001 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. [S.l.]: IEEE, 2001: 621?626.
[5] LECUN Y, BOTTOU L, BENGIO Y, et al. Gradient?based learning applied to document recognition [J]. Proceedings of the IEEE, 1998, 86(11): 2278?2324.
[6] LECUN Y A, BOTTOU L, ORR G B, et al. Efficient backprop [M]// Anon. Neural networks: tricks of the trade. Berlin: Springer Berlin Heidelberg, 1998: 9?50.
1.神經網絡的架構正變得越來越復雜。感知和翻譯等大多數神經網絡的架構正變得越來越復雜,遠非此前簡單的前饋神經網絡或卷積神經網絡(CNN)所能比。特別需要注意的是,神經網絡正與不同的技術(如LSTMs、自定義目標函數等)相混合。
神經網絡是多數深度學習項目的根基。深度學習基于人腦結構,一層層互相連接的人工模擬神經元模仿大腦的行為,處理視覺和語言等復雜問題。這些人工神經網絡可以收集信息,也可以對其做出反應。它們能對事物的外形和聲音做出解釋,還可以自行學習與工作。
2.長短期記憶網絡(LSTMs)。當你閱讀本文時,你是在理解前面詞語的基礎上來理解每個詞語的。你的思想具有連續性,你不會丟棄已知信息而從頭開始思考。傳統神經網絡的一大缺陷便無法做到這一點,而遞歸神經網絡能夠解決這一問題。
RNN(循環神經網絡)擁有循環結構,可以持續保存信息。過去幾年里,RNN在語音識別和翻譯等許多問題上取得了難以置信的成功,而成功的關鍵在于一種特殊的RNN――長短期記憶網絡。
3.“注意力模型”。“注意力”是指神經網絡在執行任務時知道把焦點放在何處。我們可以讓神經網絡在每一步都從更大的信息集中挑選信息作為輸入。例如,當神經網絡為一張圖片生成標題時,它可以挑選圖像的關鍵部分作為輸入。
4.神經圖靈機依然有趣,但還無法勝任實際工作。當你翻譯一句話時,并不會逐詞進行,而會從句子的整體結構出發。機器難以做到這一點,這一挑戰就被稱為“強耦合輸出整體估計”。
神經圖靈機就是研究者們在硅片中重現人類大腦短期記憶的嘗試。它的背后是一種特殊類型的神經網絡,它們可以適應與外部存儲器共同工作,這使得神經網絡可以存儲記憶,還能在此后檢索記憶并執行一些有邏輯性的任務。
5.深度學習讓計算機視覺和自然語言處理不再是孤島。卷積神經網絡最早出現在計算機視覺中,但現在許多自然語言處理(NLP)系統也會使用。LSTMs與遞歸神經網絡深度學習最早出現在NLP中,但現在也被納入計算機視覺神經網絡。
此外,計算機視覺與NLP的交匯仍然擁有無限前景。
6.符號微分式越來越重要。隨著神經網絡架構及其目標函數變得日益復雜,手動推導出“反向傳播”的梯度也變得更加困難而且容易出錯。谷歌的TensorFlow等最新的工具包已經可以超負荷試驗符號微分式,能夠自動計算出正確的微分,以確保訓練時誤差梯度可被反向傳播。
7.神經網絡模型壓縮的驚人成果。多個團隊以不同方法大幅壓縮了訓練一個良好模型所需的素材體量,這些方法包括二值化、固定浮點數、迭代修剪和精細調優步驟等。
這些技術潛在的應用前景廣闊,可能將會適應在移動設備上進行復雜模型的訓練。例如,不需要延遲就可以得到語音識別結果。此外,如果運算所需要的空間和時間極大降低,我們就可以極高幀率(如30 FPS)查詢一個模型,這樣,在移動設備上也可以運用復雜神經網絡模型,近乎實時地完成計算機視覺任務。
8.深度學習和強化學習繼續交匯。在“端對端”機器人等領域出現了令人激動的進展,現在機器人已經可以一起運用深度和強化學習,從而將原始感官數據直接轉化為實際動作驅動。我們正在超越“分類”等簡單工作,嘗試將“計劃”與“行動”納入方程。
關鍵詞:圖像復原;盲復原;逆濾波;神經網絡復原
1 圖像退化及復原模型
1.1 圖像降質的數學模型
圖像復原處理的關鍵問題在于如何建立退化模型。假定輸入圖像f(x,y)經過某個退化系統后輸出的是一幅退化的圖像。為了方便討論, 把噪聲引起的退化(即噪聲)對圖像的影響一般作為加性噪聲考慮,這也與許多實際應用情況一致,如圖像數字化時的量化噪聲、隨機噪聲等就可以作為加性噪聲,即使不是加性噪聲而是乘性噪聲,也可以用對數方式將其轉化為相加形式。原始圖像f(x,y) 經過一個退化算子或系統H(x,y) 的作用,然后和噪聲n(x,y)進行疊加,形成退化后的圖像g(x,y)。圖像退化的過程可以用數學表達式寫成如下的形式:
g(x,y)=H[f(x,y)]+n(x,y)
n(x,y)是一種統計性質的信息下圖表示退化過程的輸入和輸出的關系,其中H(x,y)包含了退化系統的物理過程,即所要尋找的退化數學模型。
1.2 圖像的退化恢復模型
數字圖像的圖像恢復問題可以看作是:根據退化圖像g(x ,y)和退化算子H(x ,y)的形式,沿著逆向過程去求解原始圖像f(x ,y), 或者說逆向地尋找原始圖像的最佳近似估計。
2 研究背景與意義
圖像復原是數字圖像處理技術的一個重要研究方向,在現實生活中,有著非常廣闊的應用前景和市場。數字圖像處理研究很大部分是服務于數字圖像復原的,而運動模糊圖像的復原又是圖像復原中的重要課題之一,從六十年代起就有人研究它。初期研究的主要原因是對衛星所拍攝的圖像進行復原,因為衛星相對地球是運動的,所拍出的圖像是模糊的(當然衛星所拍攝圖像的模糊原因不僅僅是相對運動而造成的,還有其他原因如大氣湍流所造的模糊等等)。美國的噴氣推進實驗室(JPL)對徘徊者飛行器發回的月球照片進行了圖像恢復處理。傳統的圖像恢復方法可以很好地恢復出來原始圖像,但是需要事先知道系統的先驗知識(例如系統的點擴散函數)。在先驗知識不足的情況下,如何恢復出來原始圖像?這就需要模糊圖像盲恢復技術。根據不同的應用背景和先驗知識,大致可以兩種方法恢復兩種類型的模糊圖像,以滿足不同的應用要求。
第一種方法:如何快速恢復模糊圖像,進行適時性圖像處理?這個技術在實際生活中有著廣泛應用。
第二種方法:如何在事先不能確定模糊系統點擴散函數的情況下,恢復模糊圖像,改善圖像的質量,這就是圖像盲恢復的問題。
3 國際國內研究發展和現狀
從歷史上來看,數字圖像處理研究有很大部分是在圖像恢復方面進行的,包括對算法的研究和針對特定問題的圖像處理程序的編寫。數字圖像處理中很多值得注意的成就就是在這兩方面取得的。
在六十年代中期,去卷積(逆濾波)開始被廣泛地應用于數字圖像恢復。這一階段對模糊圖像的研究主要是把因相對運動而拍攝的模糊圖像復原過來,從而增強人們的判讀能力。早期做圖像復原研究,主要強調盡可能使模糊圖像復原到原貌,增加它的判讀性,在此發展了很多的復原方法,諸如:差分復原、維納濾波等.這些方法各有特點,較好的解決了運動模糊圖像的判讀問題,但是在應用上均有一定的限制。
雖然經典的圖象復原方法不少,但歸納起來大致可分為逆濾波法,或稱相關變換法( inv ersefiltering or t ransfo rm related techniques) 和代數方法( alg ebraic techniques) 兩種。
3.1 傳統復原法
3.1.1 逆濾波方法
逆濾波法大致有經典逆濾波法、維納濾波法、卡爾曼濾波法等. 其中,在傅立葉變換域,經典逆濾波的變換函數是引起圖象失真的變換函數的逆變換,其雖在沒有噪聲的情況下,可產生精確的復原圖象,但在有噪聲時,將對復原圖象產生嚴重的影響,雖然濾波函數經過修改,有噪聲的圖象也能復原,但它僅適用于極高信噪比條件下的圖象復原問題; 維納濾波法是通過選擇變換函數,同時使用圖象和噪聲的統計信息來極小化均方復原誤差,這雖然在一定程度上克服了逆濾波法的缺點,但是維納濾波法需要較多有關圖象的先驗知識,如需要對退化圖象進行滿足廣義平穩過程的假設,還需要知道非退化圖象的相關函數或功率譜特性等等,而在實際應用中,要獲得這些先驗知識有較大的困難,為此,Ozkan 等人在研究圖象序列的復原問題時,提出了一種解決空間和時間相關性的多幀維納濾波法,是近年來維納濾波法的新發展; 卡爾曼濾波是一種遞歸濾波方法,其雖可用于非平穩圖象的復原,但是因計算量過大,而限制了其實際應用的效果。 Wu 和Kundu 又對卡爾曼濾波方法進行了改進,不僅提高了速度,并考慮了應用于非高斯噪聲的情況; Cit rin 和Azimi-Sadjadi 也對卡爾曼濾波方法進行了改進,提出了塊卡爾曼濾波方法; Koch 等提出了擴展卡爾曼濾波( extended Kalmam filter) 復原方法,該方法可以較好地復原模糊類型不相似的退化圖象.除了上述的逆濾波方法外,還有參數估計濾波法,它實質上是維納濾波法的變種. 20 世紀90 年代初,又提出了基于遞歸圖象濾波的自適應圖象復原方法及合成濾波方法,它代表了濾波方法新的發展方向. 1998 年Kundur 等人首先明確提出了遞歸逆濾波( recursiv e inv er se filter ing ) 算法 ,2000 年Chow 等人又進行了改進,即在代價函數中增加了空間自適應正則化項,從而很好地抑制了噪聲,并減少了振鈴現象,較好實現了在低SNR 條件下的盲圖象復原. 2001 年,Eng 等人結合模糊集的概念,提出了自適應的軟開關中值濾波方法,它能在有效地去掉脈沖噪聲的同時,很好地保存圖象的細節,是一種值得重視的新的圖象復原方法。
3.1 2 代數方法
Andrews 和Hunt 提出了一種基于線性代數的圖象復原方法。這種方法可能比較適合那些相對于積分運算,則更喜歡矩陣代數,而相對于分析連續函數,又更喜歡離散數學的人的口味。它為復原濾波器的數字計算提供了一個統一的設計思路。代數方法可分為偽逆法、奇異值分解偽逆法、維納估計法和約束圖象復原方法等。 其中,偽逆法,實質上是根據圖象退化的向量空間模型來找到引起圖象退化的模糊矩陣,但由于模糊矩陣總是很大的,因此在計算上往往不可行; 而奇異值分解偽逆法則是利用矩陣可分解成特征矩陣系列的思想,將模糊矩陣進行分解,由于簡化了計算,從而有利于模糊矩陣的估計計算,但在有噪聲存在時,經常會出現不穩定的現象; 維納估計法雖然考慮了噪聲的情況,但它僅適合噪聲是二維隨機過程,且已知其期望和協方差的情況。前面的方法僅把圖象看成是數字的陣列,然而一個好的復原圖象應該在空間上是平滑的,其在幅度值上是正的,而約束圖象復原方法就是將這些因素作為約束條件,如基于維納估計法和回歸技術而提出的圖象復原方法就是一種約束圖象復原方法,而且通過選取不同的約束參數和回歸方法可以得到不同的圖象復原算法。傳統的圖象復原算法或面臨著高維方程的計算問題,或要求恢復過程滿足廣義平穩過程的假設,這就是,使得具有廣泛應用價值的圖象復原問題沒有得到圓滿的解決的根本原因。
3.2 神經網絡圖象復原的方法
神經網絡圖象復原方法的發展方向自從神經網絡圖象復原首次提出十多年來,其研究在不斷地深入和發展,描述它的現狀已屬不易,展望它的未來更是困難,況且科學研究具有不確定性. 據筆者判斷,如下諸方面是亟待解決的問題,或研究活動已有向這些方面集中的趨勢。
3. 2.1小波神經網絡用于圖象復原將是研究的重點
自1992 年Zhang 提出小波神經網絡以來,如今已提出了各種類型的小波網絡,且小波與神經網絡的結合成了一個十分活躍的研究領域。通過學者們的理論分析和模擬實驗表明: 由于小波神經網絡具有逼近能力強、可顯著降低神經元的數目、網絡學習收斂的速度快、參數( 隱層結點數和權重) 的選取有理論指導、能有效避免局部最小值問題等優點,因此將其用于圖象復原是一個值得研究的方向。將小波的時頻域局部性、多分辨性等性質,與神經網絡的大規模并行性、自學習特性等優點結合起來,不僅將使用于圖象復原的小波神經網絡具有自適應分辨性,也將使正則化參數的選取更具有自適應能力. 最終使復原圖象既能保持圖象的細節,又能很好地抑制圖象中的各種噪聲。
3.2.2細胞神經網絡、BP 網絡、自組神經網絡
值得進一步研究細胞神經網絡( CNN ) 由于其具有易于硬件實現的特點,因而具有很強的商業價值,但由于其自身還有很不成熟的地方,因此值得深入地研究. 其研究方向有: 細胞神經網絡理論基礎的進一步完善及在此基礎上建立細胞神經網絡中鄰域系統的概念; 與圖象數據局部相關性等概念結合起來研究,以建立新的圖象復原理論,形成新的圖象復原技術。BP 網絡對受污染或帶噪聲的訓練樣本,不僅能進行正確的映射,且與其純樣本仍相似。 正是BP 網絡的泛化能力強,使它在解決圖象復原問題時,可能比其他神經網絡具有更好的潛在性能。 將BP 網絡用于圖象復原是很值得進一步研究的.大家知道,人腦的學習方式是“自主的”,即有自組織和自適應的能力的,即人腦能在復雜、非平穩和有“干擾”的環境及其變化的情況下,來調整自己的思維和觀念,還能根據對外界事物的觀察和學習,找到其內在的規律和本質屬性,并能在一定的環境下,估計到可能出現的情況以及預期會遇到和感覺到的各種內容及情況。 自組織神經網絡(SONN) 正是基于人腦的這些功能而生成的,由于它具有能從輸入的數據中,揭示出它們之間內在關系的能力,因此將其用于“盲圖象”的復原將是非常有利的。
3.2.3 需要提出更適合圖象復原的新神經網絡模型
小波神經網絡是為逼近任意非線性函數而提出來的,但為了圖象復原的需要,可考慮針對圖象復原的特殊情況,提出新的神經網絡模型。 如,因為大多數圖象是由平滑區域和輪廓細節組成的,其圖象數據在平滑區域雖具有較強的相關性,但與輪廓細節相鄰的數據應極不相關,所以,提出一種專用于圖象復原的“相關性神經網絡模型”是必然的期待; 再有,因為多項式具有較廣的擬合性和較好的收斂性,所以應提出的“多項式神經網絡”,將它們用于圖象復原也是值得研究的。
3.2.4 神經網絡與其他理論的結合
研究是尋求新模型、新方法的重要途徑目前神經網絡的研究正由單純的神經計算轉向計算智能,并結合腦科學的研究向生物智能方向發展。 為此,神經網絡圖象復原的研究也應考慮吸收模糊、分形、混沌、進化計算、信息融合等交叉學科的研究成果。 與模糊系統的結合將是一個重要的研究方向,因為,神經網絡與模糊系統有如下很多的相同之處: ( 1) 它們在處理和解決問題時,無需建立對象的精確數學模型,而只需要根據輸入的采樣數據去估計其要求的決策; ( 2) 在對信息的加工處理過程中,均表現出了很強的容錯能力; ( 3) 它們都可以用硬件來實現. 由此可見,將神經網絡與模糊系統結合,用于圖象復原將是有意義的研究工作。
4 未來展望
圖像恢復發展到現在,已經有了許多成熟的算法,但是還是存在許多問題,等待著我們去解決。目前圖像恢復的最新發展有:
1. 非穩圖像復原,即空間可變圖像復原。
2. 退化視頻信號的復原問題,以及攝像機拍照圖像復原,這是一個需要進一步研究的領域。
3. 運動補償時空復原濾波,同時將時間相關應用到運動補償中。
4. “Telemedicine“的出現,遠程診斷極大的依賴于遠程接受的圖像質量,圖像恢復在醫學領域中有相當重要的作用。
5. 模糊 PSF 的 Identification 仍然是一個困難的問題,尤其在空間可變的 PSF 的估計中。
6. 空間可變恢復方法,可以利用 Wavelets 和 Markov 隨機場等方法進行復圖像恢復,這是一個具有發展潛力的研究方向。
參考文獻
1 馮久超,黃海東. 基于神經網絡的盲圖象恢復[ J ] . 計算機科學,2000,27( 1) : 67~68.
2 Er ler K,Jernigan E. Adaptive image restorat ion using recursive image f ilters [ J ] . IEE E Trans actions on Signal Process ing,1994,42( 7) : 1877~1881.