1000部丰满熟女富婆视频,托着奶头喂男人吃奶,厨房挺进朋友人妻,成 人 免费 黄 色 网站无毒下载

首頁 > 文章中心 > 卷積神經網絡的算法

卷積神經網絡的算法

前言:想要寫出一篇令人眼前一亮的文章嗎?我們特意為您整理了5篇卷積神經網絡的算法范文,相信會為您的寫作帶來幫助,發現更多的寫作思路和靈感。

卷積神經網絡的算法范文第1篇

關鍵詞:卷積神經網絡;自動編碼器;非監督訓練;多尺度分塊;目標識別

中圖分類號:TP391.41文獻標志碼:A英文標題

0引言

對圖像中目標的精確和魯棒識別是模式識別及人工智能領域的核心內容,在道路監控、戰場偵察、精確打擊等領域中有著重要的作用和廣泛的前景。近年來,隨著深度神經網絡成為機器學習新的熱點,基于卷積神經網絡(Convolutional Neural Network,CNN)的圖像識別算法因其較強的魯棒性和突出的識別率被學術界和工業界所重視。

Alex等[1]提出基于大型深層CNN的自然圖像識別算法,在ImageNet數據集上取得了很高的識別率;Dan等[2]提出了基于多核的CNN,并采用GPU并行運算的方法在三維NORB數據集上取得了很好的識別效果。以上算法雖然都取得了較高的目標識別率,但是由于算法采用有監督的訓練方式,需要大量標簽數據對網絡權重進行調整,當數據量較小時會導致模型前幾層網絡無法得到充分訓練,故只能針對含標簽數據較多的大型數據集。針對此問題,目前主流的解決方法是采用特征提取算法對CNN的濾波器集進行非監督的預訓練。文獻[3]采用稀疏編碼提取訓練圖像的基函數作為CNN的初始濾波器;文獻[4]將獨立成分分析(Independent Component Analysis,ICA)應用于CNN的預訓練階段,利用ICA訓練濾波器集合,使識別率得到了一定提高。然而無論是稀疏編碼還是ICA,其特征提取的效果都比較一般,應用于預訓練階段對算法識別率的提升也比較有限。所以如何更好地選擇濾波器的預訓練算法仍是十分困難的問題。

除了預訓練外,影響CNN識別率和魯棒性的關鍵參數還有濾波器的尺寸和下采樣層的采樣間隔。濾波器尺寸反映了CNN對輸入圖像局部特征的提取情況,文獻[5]證明濾波器尺寸對最終識別結果有很大影響,并給出了單層條件下相對最優的濾波器尺寸。下采樣層主要負責對特征進行模糊,從而獲得平移、尺度等不變性。采樣間隔反映了模糊的程度,間隔越大模糊越嚴重,模糊后的特征保持的全局空間信息就越少。文獻[6]證明當采樣間隔較小時,即使經過2次卷積和2次最大下采樣(maxpooling),網絡輸出的激活值仍能重構出與原始輸入看似相同的圖案。然而下采樣間隔過小會導致不變性喪失,過大則會損失大量細節信息,兩者均會導致識別率的下降。

針對以上問題,本文提出基于多尺度分塊卷積神經網絡(MultiScale Convolutional Neural Network, MSCNN)的圖像目標識別算法。首先利用稀疏自動編碼器(Sparse AutoEncoder,SAE)對卷積神經網絡的濾波器進行非監督預訓練,通過最小化重構誤差獲得待識別圖像的隱層表示,進而學習得到含有訓練數據統計特性的濾波器集合,預訓練效果相比ICA更好。其次提出多尺度分塊的方法構建卷積神經網絡,為了增加魯棒性并減小下采樣對特征表示的影響,對輸入圖像進行多尺度分塊形成多個通路,并設計相應尺寸的濾波器進行卷積運算,將不同通路下采樣后的輸出進行融合從而形成新的特征,輸入softmax分類器完成圖像目標的識別。最后通過大量實驗對比MSCNN算法與經典算法在通用圖像識別任務中的識別率和魯棒性差異,從而驗證算法的有效性。

4仿真實驗及分析

本文使用STL10公開數據集以及從全色波段的QuiekBird遙感衛星和GoogleEarth軟件中截取的遙感飛機圖像數據集進行測試實驗,將所有圖片變為64×64像素的RGB圖。選擇STL10數據集的原因是因為其含有不包含標簽的訓練集,可用于本文的非監督預訓練算法,且圖像中包含更多類內變化。STL10共10類目標,本文選用其中的4類目標進行實驗。選擇遙感飛機圖像數據則是為了驗證本文算法在遙感圖像解譯方面的可用性。該數據集包含5類遙感飛機,共400幅。實驗時隨機選取遙感飛機圖像庫中50%的圖像作為訓練樣本,其余作為測試樣本。本文的實驗環境為CPU2.8GHz、內存3GB的計算機,實現算法的軟件為Matlab(2011a)。

4.1算法識別率對比測試

MSCNN的各通路尺寸參數設置如圖4所示,每個通道使用300個濾波器,濾波器初始值按照不同通道感受野大小利用稀疏自動編碼器預訓練得到。編碼器設定為3層,稀疏參數ρ設定為0.05,訓練周期為400。卷積神經網絡的下采樣方式采用最大下采樣(max pooling)。

按照上述參數設置,通路1輸出特征維度為2700,通路2輸出特征維度為4800,通路3輸出特征維度為4800,MSCNN輸出特征維度總共為12300。所有算法的訓練周期均為50。傳統CNN參數設定與通路1參數設定相同,同樣使用300個濾波器,濾波器初始值通過隨機初始化得到。輸出特征維度為2700。實驗結果如表1所示。

從表1可看出,加入LCN的CNN較未加入的CNN對兩種數據集的識別率有一定的提高,說明了加入LCN對目標識別率是有一定的貢獻的;在兩種數據集上MSCNN相比原始CNN都擁有更高的識別率。MSCNN通路1雖然參數設置與CNN相同,但在相同訓練周期下識別率較加入LCN的CNN又有一定提高,說明了非監督預訓練對識別率提高的有效性。對于STL10數據集,可看出通路2的識別率在3個通路中最高,通路3則最低,這是因為通路3輸入的圖像尺寸最小,而STL10類內變化很大且目標不全在圖像中心,故識別率有所下降。通路之間進行兩兩累加后識別率都有所提高,在3個通路共同作用時識別率最高,達到83.5%。對于遙感飛機圖像集而言,可看出3個通路中通路2的識別率最高,這是因為遙感飛機圖像集均為飛機圖像,不同類別之間的全局特征差異并不明顯,而局部特征更能表示不同的飛機類別。通路3由于輸入尺寸較小,識別率稍有下降。同樣的,不同通路之間的疊加都讓識別率有所提升,最終MSCNN三通路特征融合后的識別率達到了96.5%,完全滿足對于可見光遙感圖像目標識別的需求。

從表1還可看出,本文算法在3個通路CNN的情況下的識別率較1個通路或2個通路的CNN的識別率高,由此可以推斷3個通路CNN所提取的特征具有較強的泛化能力和魯棒性。此外3個通道能夠兼顧不同的尺度,使模型能提取到尺度不同的特征。

4.2算法魯棒性實驗

為驗證MSCNN的魯棒性,在數據集中選取不同類別的圖像對其進行平移、尺度、旋轉變換,然后計算MSCNN輸出的第一層全連接特征與圖像變換后輸出特征之間的歐氏距離,根據距離的大小可以衡量輸出特征對于目標變化的魯棒性,歐氏距離越小就說明特征對于目標變化越不敏感,魯棒性就越好。對于STL10選取四類目標進行實驗,對比算法為CNN;對于遙感飛機圖像集隨機選取10幅進行實驗,并取距離的平均值,對比算法為ICA和CNN。測試結果如圖6~7所示。

圖6中虛線表示傳統CNN算法得到的結果,實線則表示MSCNN得到的結果,從圖6可看出:無論是面對平移、尺度還是旋轉變換,MSCNN算法最終輸出的特征向量變化率均小于CNN算法,證明其魯棒性要好于CNN。

從圖7也可看出:本文算法對于遙感飛機圖像集的平移、尺度、旋轉均表現出良好的魯棒性,相比而言ICA提取的特征魯棒性較差,目標圖像微小的變化就導致了特征較大的改變。本文算法魯棒性較好首先是因為MSCNN采用非監督的預訓練方式,訓練得到的濾波器含有更多圖像不變性特征;其次是因為MSCNN采用多尺度輸入,小塊圖像輸入在一定程度上相當于另一種局部特征,這些特征相比全尺寸輸入擁有更好的不變性;最后是MSCNN采用了局部對比度標準化,對于亮度變化較大和存在噪聲的目標圖像魯棒性明顯增強。

另外,本文算法采用了多通路多尺度分塊的方法,必然會使網絡參數增加,從而會使訓練時間比較耗時;但在測試階段,輸入樣本的計算僅包含一些簡單的卷積和下采樣,算法復雜度并沒有因為通道的增加而增加,因此在測試階段的實時性較傳統的CNN并沒有太大變化。

5結語

本文提出了MSCNN算法在卷積神經網絡的基礎上通過非監督預訓練濾波器的方法解決傳統卷積神經網絡前幾層無法得到有效訓練的問題。針對傳統神經網絡對于復雜背景圖像識別率不高的問題,利用多尺度輸入圖像增加局部不變信息,利用不同尺寸濾波器卷積搭配不同下采樣間隔的方法在獲得特征不變性的同時不至于喪失目標的細節信息,有效提升了識別率和魯棒性。與經典算法的對比實驗結果表明:該方法能夠有效識別可見光自然圖像和遙感圖像,并對平移、尺度和旋轉變換具有較強的魯棒性。

參考文獻:

[1]

ALEX K, ILYA S, HINTON G E. ImageNet classification with deep convolutional neural networks[EB/OL]. [20150210]. http://papers.nips.cc/paper/4824imagenetclassificationwithdeepconvolutionalneuralnetworks.pdf.

[2]

DAN C, UELI M, JURGEN S. Multicolumn deep neural networks for image classification[C]// Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2012: 3642-3649.

[3]

KAVUKCUOGLU K, SERMANET P, BOUREAU Y, et al. Learning convolutional feature hierarchies for visual recognition[EB/OL]. [20150210]. http://cs.nyu.edu/~ylan/files/publi/koraynips10.pdf.

[4]

KAVUKCUOGLU K, RABZATO M, FERGUS R, et al. Learning invariant features through topographic filter maps[C]// IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2009: 1605-1612.

[5]

COATES A, LEE H, NG A Y. An analysis of singlelayer networks in unsupervised feature learning[C]// Proceedings of the 14th International Conference on Artificial Intelligence and Statistics. Piscataway, NJ: IEEE, 2011: 215-223.

[6]

ZEILER M D, FERGUS, R. Visualizing and understanding convolutional neural networks [C]// ECCV 2014: Proceedings of the 13th European Conference on Computer Vision. Berlin: Springer, 2014: 818-833.

[7]

BALDI P, LU ZHIQIN. Complexvalued autoencoders [J]. Neural Networks, 2012, 33:136-147.

[8]

HAYKIN S.神經網絡與機器學習[M].3版.申富饒, 徐燁, 鄭俊, 譯. 北京: 機械工業出版社, 2011:81-89.(HAYKIN S. Neural Networks and Learning Machines[M]. 3rd ed. SHEN F R, XU Y, ZHENG J, translated. Beijing: China Machine Press, 2011:81-89.

[10]

LECUN Y, BOTTOU L, BENGIO Y. Gradientbased learning applied to document recognition [J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324.

[11]

DERMANET P, LECUN Y. Traffic sign recognition with multiscale convolutional networks [C]// Proceedings of the 2011 International Joint Conference on Neural Networks. Piscataway, NJ: IEEE, 2011: 2809-2813.

[12]

GONG Y C, WANG L W, GUO R Q, et al. Multiscale orderless pooling of deep convolutional activation features[C]// ECCV 2014: Proceedings of the 13th European Conference on Computer Vision. Piscataway, NJ: IEEE, 2014: 392-407.

[13]

JARRETT K, KAVUKCUOGLU K, RANZATO M, et al. What is the best multistage for object architecture?[C]// Proceedings of the 2009 IEEE 12th International Conference on Computer Vision. Piscataway, NJ: IEEE, 2009: 2146-2153.

[14]

BOUVRIE J. Notes on convolutional neural networks [EB/OL]. [20150210]. http://math.duke.edu/~jvb/papers/cnn_tutorial.pdf.

Background

This work is partially supported by the National Natural Science Foundation of China (61372167, 61379104).

ZHANG Wenda, born in 1991, M. S. candidate. His research interests include pattern recognition and artificial intelligence.

卷積神經網絡的算法范文第2篇

(江蘇科技大學電子信息學院,江蘇鎮江212003)

摘要:在實際交通環境中,由于運動模糊、背景干擾、天氣條件以及拍攝視角等因素,所采集的交通標志的圖像質量往往不高,這就對交通標志自動識別的準確性、魯棒性和實時性提出了很高的要求。針對這一情況,提出一種基于深層卷積神經網絡的交通標志識別方法。該方法采用深層卷積神經網絡的有監督學習模型,直接將采集的交通標志圖像經二值化后作為輸入,通過卷積和池采樣的多層處理,來模擬人腦感知視覺信號的層次結構,自動地提取交通標志圖像的特征,最后再利用一個全連接的網絡實現交通標志的識別。實驗結果表明,該方法利用卷積神經網絡的深度學習能力,自動地提取交通標志的特征,避免了傳統的人工特征提取,有效地提高了交通標志識別的效率,具有良好的泛化能力和適應范圍。

關鍵詞 :交通標志;識別;卷積神經網絡;深度學習

中圖分類號:TN911.73?34;TP391.41 文獻標識碼:A 文章編號:1004?373X(2015)13?0101?06

收稿日期:2015?01?09

基金項目:國家自然科學基金面上項目(61371114)

0 引言

隨著智能汽車的發展,道路交通標志的自動識別[1?3]作為智能汽車的基本技術之一,受到人們的高度關注。道路交通標志識別主要包括兩個基本環節:首先是交通標志的檢測,包括交通標志的定位、提取及必要的預處理;其次是交通標志的識別,包括交通標志的特征提取和分類。

如今,交通標志的識別方法大多數都采用人工智能技術,主要有下述兩類形式[4]。一種是采用“人工特征+機器學習”的識別方法,如基于淺層神經網絡、支持向量機的特征識別等。在這種方法中,主要依靠先驗知識,人工設計特征,機器學習模型僅負責特征的分類或識別,因此特征設計的好壞直接影響到整個系統性能的性能,而要發現一個好的特征,則依賴于研究人員對待解決的問題的深入理解。另一種形式是近幾年發展起來的深度學習模型[5],如基于限制波爾茲曼機和基于自編碼器的深度學習模型以及卷積神經網絡等。在這種方法中,無需構造任何的人工特征,而是直接將圖像的像素作為輸入,通過構建含有多個隱層的機器學習模型,模擬人腦認知的多層結構,逐層地進行信息特征抽取,最終形成更具推廣性和表達力的特征,從而提升識別的準確性。

卷積神經網絡作為深度學習模型之一,是一種多層的監督學習神經網絡,它利用一系列的卷積層、池化層以及一個全連接輸出層構建一個多層的網絡,來模仿人腦感知視覺信號的逐層處理機制,以實現視覺特征信號的自動提取與識別。本文將深層卷積神經網絡應用于道路交通標志的識別,通過構建一個由二維卷積和池化處理交替組成的6層網絡來逐層地提取交通標志圖像的特征,所形成的特征矢量由一個全連接輸出層來實現特征的分類和識別。實驗中將加入高斯噪聲、經過位移、縮放和旋轉處理的交通標志圖像以及實際道路采集交通標志圖像分別構成訓練集和測試集,實驗結果表明,本文所采用的方法具有良好的識別率和魯棒性。

1 卷積神經網絡的基本結構及原理

1.1 深度學習

神經科學研究表明,哺乳動物大腦皮層對信號的處理沒有一個顯示的過程[5],而是通過信號在大腦皮層復雜的層次結構中的遞進傳播,逐層地對信號進行提取和表述,最終達到感知世界的目的。這些研究成果促進了深度學習這一新興研究領域的迅速發展。

深度學習[4,6?7]的目的就是試圖模仿人腦感知視覺信號的機制,通過構建含有多個隱層的多層網絡來逐層地對信號特征進行新的提取和空間變換,以自動學習到更加有效的特征表述,最終實現視覺功能。目前深度學習已成功地應用到語音識別、圖像識別和語言處理等領域。在不同學習框架下構建的深度學習結構是不同的,如卷積神經網絡就是一種深度的監督學習下的機器學習模型。

1.2 卷積神經網絡的基本結構及原理

卷積神經網絡受視覺系統的結構啟發而產生,第一個卷積神經網絡計算模型是在Fukushima 的神經認知機中提出的[8],基于神經元之間的局部連接和分層組織圖像轉換,將有相同參數的神經元應用于前一層神經網絡的不同位置,得到一種平移不變神經網絡結構形式。后來,LeCun 等人在該思想的基礎上,用誤差梯度設計并訓練卷積神經網絡[9?10],在一些模式識別任務上得到優越的性能。

卷積神經網絡本質上是一種有監督的深度學習算法,無需事先知道輸入與輸出之間精確的數學表達式,只要用已知的模式對卷積神經網絡加以訓練,就可以學習到輸入與輸出之間的一種多層的非線性關系,這是非深度學習算法不能做到的。卷積神經網絡的基本結構是由一系列的卷積和池化層以及一個全連接的輸出層組成,可以采用梯度下降法極小化誤差函數對網絡中的權值和閾值參數逐層反向調節,以得到網絡權值和閾值的最優解,并可以通過增加迭代次數來提高網絡訓練的精度。

1.2.1 前向傳播

在卷積神經網絡的前向傳播中,輸入的原始圖像經過逐層的卷積和池化處理后,提取出若干特征子圖并轉換成一維特征矢量,最后由全連接的輸出層進行分類識別。

在卷積層中,每個卷積層都可以表示為對前一層輸入圖像的二維卷積和非線性激勵函數,其表達式可用式(1)表示:

式中:Yj 表示輸出層中第j 個輸出;Y l + 1i 是前一層(l + 1層)

的輸出特征(全連接的特征向量);n 是輸出特征向量的長度;Wij 表示輸出層的權值,連接輸入i 和輸出j ;bj表示輸出層第j 個輸出的閾值;f (?) 是輸出層的非線性

1.2.2 反向傳播

在反向傳播過程中,卷積神經網絡的訓練方法采用類似于BP神經網絡的梯度最速下降法,即按極小化誤差的方法反向傳播調整權值和閾值。網絡反向傳播回來的誤差是每個神經元的基的靈敏度[12],也就是誤差對基的變化率,即導數。下面將分別求出輸出層、池采樣層和卷積層的神經元的靈敏度。

(1)輸出層的靈敏度

對于誤差函數式(6)來說,輸出層神經元的靈敏度可表示為:

在前向傳播過程中,得到網絡的實際輸出,進而求出實際輸出與目標輸出之間的誤差;在反向傳播過程中,利用誤差反向傳播,采用式(17)~式(20)來調整網絡的權值和閾值,極小化誤差;這樣,前向傳播和反向傳播兩個過程反復交替,直到達到收斂的要求為止。

2 深層卷積神經網絡的交通標志識別方法

2.1 應用原理

交通標志是一種人為設計的具有特殊顏色(如紅、黃、白、藍、黑等)和特殊形狀或圖形的公共標志。我國的交通標志主要有警告、禁令、指示和指路等類型,一般采用顏色來區分不同的類型,用形狀或圖形來標示具體的信息。從交通標志設計的角度來看,屬于不同類型(不同顏色)的交通標志在形狀或圖形上有較大的差異;屬于相同類型(相同顏色)的標志中同類的指示信息標志在形狀或圖形上比較接近,如警告標志中的平面交叉路口標志等。因此,從機器視覺的角度來分析,同類型中同類指示信息的標志之間會比不同類型的標志之間更易引起識別錯誤。換句話說,相比于顏色,形狀或圖形是正確識別交通標志的關鍵因素。

因此,在應用卷積神經網絡識別交通標志時,從提高算法效率和降低錯誤率綜合考慮,將交通標志轉換為灰度圖像并作二值化處理后作為卷積神經網絡的輸入圖像信息。圖2給出了應用卷積神經網絡識別交通標志的原理圖。該網絡采用了6層交替的卷積層和池采樣層來逐層提取交通標志的特征,形成的特征矢量由一個全連接的輸出層進行識別。圖中:W1i(i=1,2,…,m1),W1(j j=1,2,…,m2),…,W1k(k=1,2,…,m(n?1))分別表示卷積層L1,L3,…,Ln - 1 的卷積核;Input表示輸入的交通標志圖像;

Pool表示每個池采樣層的采樣池;map表示逐層提取的特征子圖;Y 是最終的全連接輸出。

交通標志識別的判別準則為:對于輸入交通標志圖像Input,網絡的輸出矢量Y = [y1,y2 ,…,yC ],有yj = Max{y1,y2 ,…,yC},則Input ∈ j,即判定輸入的交通標志圖像Input為第j 類交通標志。

2.2 交通標志識別的基本步驟

深層神經網絡識別交通標志主要包括交通標志的訓練與識別,所以將交通標志識別歸納為以下4個步驟:(1) 圖像預處理:利用公式Gray= 0.299R +0.587G + 0.114B 將彩色交通標志圖像轉換為灰度圖像,再利用鄰近插值法將交通標志圖像規格化,最后利用最大類間方差將交通標志圖像二值化。

(2)網絡權值和閾值的初始化:利用隨機分布函數將權值W 初始化為-1~1之間的隨機數;而將閾值b 初始化為0。

(3)網絡的訓練:利用經過預處理的交通標志圖像構成訓練集,對卷積神經網絡進行訓練,通過網絡前向傳播和反向傳播的反復交替處理,直到滿足識別收斂條件或達到要求的訓練次數為止。

(4)交通標志的識別:將實際采集的交通標志圖像經過預處理后,送入訓練好的卷積神經網絡中進行交通標志特征的提取,然后通過一個全連接的網絡進行特征分類與識別,得到識別結果。

3 實驗結果與分析

實驗主要選取了我國道路交通標志的警告標志、指示標志和禁令標志三類中較常見的50幅圖像。考慮到在實際道路中采集到的交通標志圖像會含有噪聲和出現幾何失真以及背景干擾等現象,因此在構造網絡訓練集時,除了理想的交通標志以外,還增加了加入高斯噪聲、經過位移、旋轉和縮放處理和實際采集到的交通標志圖像,因此最終的訓練樣本為72個。其中,加入的高斯噪聲為均值為0,方差分別為0.1,0.2,0.3,圖像的位移、旋轉、縮放的參數分別隨機的分布在±10,±5°,0.9~1.1的范圍內。圖3給出了訓練集中的交通標志圖像的示例。圖4是在實際道路中采集的交通標志圖像構成的測試集的示例。

在實驗中構造了一個輸入為48×48個神經元、輸出為50 個神經元的9 層網絡。網絡的輸入是像素為48 × 48 的規格化的交通標志圖像,輸出對應于上述的50種交通標志的判別結果。網絡的激活函數采用S型函數,如式(2)所示,其輸出范圍限制在0~1之間。

圖6是交通標志的訓練總誤差EN 曲線。在訓練開始的1 500次,誤差能迅速地下降,在迭代2 000次以后是一個平穩的收斂過程,當迭代到10萬次時,總誤差EN可以達到0.188 2。

在交通標志的測試實驗中,為了全面檢驗卷積神經網絡的識別性能,分別針對理想的交通標志,加入高斯噪聲、經過位移、旋轉和比例縮放以及采集的交通標志圖像進行實驗,將以上測試樣本分別送入到網絡中識別,表2給出了測試實驗結果。

綜合分析上述實驗結果,可以得到以下結論:(1)在卷積神經網絡的訓練學習過程中,整個網絡的誤差曲線快速平穩的下降,體現出卷積神經網絡的訓練學習具有良好的收斂性。

(2)經逐層卷積和池采樣所提取的特征具有比例縮放和旋轉不變性,因此對于旋轉和比例縮放后的交通標志能達到100%的識別率。

(3)與傳統的BP網絡識別方法[11]相比較,卷積神經網絡能夠達到更深的學習深度,即在交通標志識別時能夠得到更高的所屬類別概率(更接近于1),識別效果更好。

(4)卷積神經網絡對實際采集的交通標志圖像的識別率尚不能達到令人滿意的結果,主要原因是實際道路中采集的交通標志圖像中存在著較嚴重的背景干擾,解決的辦法是增加實際采集的交通標志訓練樣本數,通過網絡的深度學習,提高網絡的識別率和魯棒性。

4 結論

本文將深層卷積神經網絡應用于道路交通標志的識別,利用卷積神經網絡的深層結構來模仿人腦感知視覺信號的機制,自動地提取交通標志圖像的視覺特征并進行分類識別。實驗表明,應用深層卷積神經網絡識別交通標志取得了良好的識別效果。

在具體實現中,從我國交通標志的設計特點考慮,本文將經過預處理二值化的圖像作為網絡的輸入,主要是利用了交通標志的形狀信息,而基本略去了顏色信息,其優點是在保證識別率的基礎上,可以簡化網絡的結構,降低網絡的計算量。在實際道路交通標志識別中,將形狀信息和顏色信息相結合,以進一步提高識別率和對道路環境的魯棒性,是值得進一步研究的內容。

此外,本文的研究沒有涉及到道路交通標志的動態檢測,這也是今后可以進一步研究的內容。

參考文獻

[1] 劉平華,李建民,胡曉林,等.動態場景下的交通標識檢測與識別研究進展[J].中國圖象圖形學報,2013,18(5):493?503.

[2] SAHA S K,DULAL C M,BHUIYAN A A. Neural networkbased sign recognition [J]. International Journal of ComputerApplication,2012,50(10):35?41.

[3] STALLKAMP J,SCHLIOSING M,SALMENA J,et al. Man vs.computer:benchmarking machine learning algorithms for traf?fic sign recognition [J]. Neural Network,2012,32(2):323?332.

[4] 中國計算機學會.深度學習:推進人工智能夢想[EB/OL].[2013?06?10].http://ccg.org.cn.

[5] 鄭胤,陳權崎,章毓晉.深度學習及其在目標和行為識別中的新進展[J].中國圖象圖形學報,2014,19(2):175?184.

[6] FUKUSHIMA K. Neocognition:a self ? organizing neural net?work model for a mechanism of pattern recognition unaffectedby shift in position [J]. Biological Cybernetics,1980,36(4):193?202.

[7] LECUN Y,BOTTOU L,BENGIO Y,et al. Gradient ? basedlearning applied to document recognition [J]. IEEE Journal andMagazines,1989,86(11):2278?2324.

[8] LECUN Y,BOTTOU L,BENGIO Y,et al. Backpropagationapplied to handwritten zip code recognition [J]. Neural Compu?tation,1989,1(4):541?551.

[9] CIRESAN D,MEIER U,MAsci J,et al. Multi?column deepneural network for traffic sign classification [J]. Neural Net?works,2012,32(2):333?338.

[10] NAGI J,DUCATELLE F,CARO D,et al. Max?pooling con?volution neural network for vision?based hand gesture recogni?tion [C]// 2011 IEEE International Conference on Signal andImage Processing Application. Kuala Lumpur:IEEE,2011,342?347.

[11] 楊斐,王坤明,馬欣,等.應用BP神經網絡分類器識別交通標志[J].計算機工程,2003,29(10):120?121.

[12] BUVRIE J. Notes on convolutional neural networks [EB/OL].[2006?11?12]. http://cogprints.org/5869/.

[13] 周開利,康耀紅.神經網絡模型及其Matlab 仿真設計[M].北京:清華大學出版社,2005.

[14] 孫志軍,薛磊,許陽明,等.深度學習研究綜述[J].計算機應用研究,2012,29(8):2806?2810.

[15] 劉建偉,劉媛,羅雄麟.深度學習研究進展[J].計算機應用研究,2014(7):1921?1930.

卷積神經網絡的算法范文第3篇

關鍵詞:模式識別卷積神經網絡 google earth 應用

中圖分類號:TP39 文獻標識碼:A 文章編號:1007—3973(2012)009—087—02

隨著科技的進步,許多發明、電子產品使人們的生活更加方便。生活經常見到的有:筆記本電腦的指紋鎖、數碼相機的人像識別功能、電腦手寫板、語音錄入設備、門禁中的虹膜識別技術等等,這些設備與技術中都包含了模式識別技術。這些看似抽象的技術與算法正與其他技術一起悄然的改變人們的生活。

1 什么是模式識別

人們的許多感官功能看似簡單,但用人工的辦法實現卻比較困難。人與人見面相互打招呼。在看見對方的面部后,人能夠很快的認定這張臉是個人臉,而且我認識他,應該和他打招呼。這個看似簡單的過程其實并不簡單,我們不僅僅要識別五官,還要掃描輪廓,而且還要判斷是否認識等等。可見,很多看似簡單的認知過程,如果試圖用某一方法描述確實不宜。對人臉進行模式識別就可以解決這個看似簡單的問題。

模式識別(Pattern Recognition)是指通過用計算機對事物或現象的各種形式的(光信息,聲信息,生物信息)信息進行處理和和判讀,以對事物或現象進行描述、辨認、分類和解釋的過程,是人工智能的和信息捕獲的重要組成部分。現在被廣泛應用于計算機視覺,自然語言處理,生物特征識別,互聯網搜索等領域。

2 模式識別與google earth衛星照片

在衛星圖片中識別特定的目標,如道路,湖泊,森林等等,往往要運用模式識別技術,現在較為主流的是神經網絡識別。上一代的技術室根據RGB提取的,在提取森林或湖泊的時候,有很多干擾顏色,對衛星照片精度有很高要求。根據RGB提取效果不是十分理想,而且計算量大,對硬件有一定要求。

隨著神經網絡識別技術的發展,現在計算機可自動識別目標。不必使用特殊的衛星波段影像,小型機計算,只要從GOOGLE EARTH獲取的普通衛星影像就可以自動識別了。

Google Earth是Google公司開發推出的一款虛擬地球儀軟件,它把衛星照片、航空照相布置在一個地球的三維模型上,是一款全球地圖集成軟件。Google Earth與模式識別技術的綜合運用,使其衛星圖片在道路規劃,通信線路管理,土地勘察,遙感探測等等行業有著很大的運用。

在實際情況下對衛星圖片進行模式識別,實現起來有許多困難,光線條件、大地背景、大氣云層情況影響以及由于拍攝角度或空氣密度等原因導致照片的被照物體的幾何變形等都會對識別效果有直接影響。這些都對識別算法要求很高。本文選用的神經網絡識別方法,具有識別率高、對不規則物體識別效果好等優點,被廣泛運用在許多領域。本文使用改進的卷積神經網絡對google earth 衛星圖片進行處理,幾乎不用對照片進行預處理。這大大節省了運算時間,而且避免了二次處理后對原始文件的污染,大量原始信號被最大程度地保留。

3 模式識別與卷積神經網絡

卷積神經網絡CNN(Convolutional Neural Networks)是近年發展起來并引起廣泛重視的一種高效識別方法。神經網絡是受動物神經系統啟發,利用大量簡單處理單元互聯而構成的復雜系統,以解決復雜模式識別與行為控制問題。目前,CNN已經成為國內外科學家研究的重點方向,特別是在模式識別領域。它的優點是不需要對圖像進行復雜的預處理,成為大家廣為使用的方法。CNN的基本結構一般包括兩層:(1)特征提取層。每個神經元的輸入與前一層的局部接受域相連,并提取該局部的特征。一旦該局部特征被提取后,與其他特征間的位置關系也隨之確定下來。(2)特征映射層。網絡的每個計算層由多個特征映射組成,每個特征映射是一個平面,平面上所有神經元的權值相等。特征映射結構采用影響函數核小的sigmoid函數作為卷積網絡的激活函數,使得特征映射具有位移不變性。

4 卷積神經網絡在衛星圖片識別中的應用

為提高google earth衛星照片中目標的識別率,創造性使用卷積神經網絡進行模式識別,其主要部分基本設計結構如圖1所示。

圖1中,整個結構模仿動物的神經結構,大量的單一識別單元被關聯成一個網路。 C層則是由復雜(complex)神經元組成的神經層,它的輸入連接是固定的,不可修改,顯示接收信心被激勵位置的近似變化。網絡中C層的最后一層為識別層,顯示模式識別的結果。S層為簡單(simple)神經元組成的神經層,完成主要信息提取,其輸入連接是不是固定的,可在訓練的過程中不斷修改。這個系統進過不斷的訓練,輸入照片的格式和大小會自動地被識別,大大節省了前期的工作時間,提高了識別速度。

在訓練集中同時需要常規積極樣本和消極樣本,樣本包括衛星圖片中房屋和道路的1000個圖像目標積極訓練集。大多數基于學習方法的目標物體識別使用一個大約為10?0的最小輸入窗口,好處是可以做到不遺漏任何重要信息。為了達到穩定的效果,對所有原有的訓練樣進行色彩轉換和對比還原轉換,得到的積極樣本訓練集有2400個目標樣本。

5 實驗結果

分兩個步驟進行試驗,第一步對衛星圖片進行定位和裁剪等預處理,第二步選取合格衛星圖片200個樣本圖片訓練卷積神經網絡,訓練后得到各層3個主要數據:閾值、權值及神經元細胞平面數,然后使用優化后的神經網絡識別機對200個測試樣本進行檢查,其正確的識別率達到97%。實驗要注意訓練的時間,系統過度訓練后,識別率會不斷提高,但訓練時間的不斷增加,測試失敗率到最小值后出現及其微細震蕩,造成識別率的小幅波動。(見圖2)

實驗表明,卷積神經網絡應用于衛星圖片目標識別是完全可行的,訓練樣本越豐富則則識別率越高。與傳統模式識別方法相比有更高的識別率和抗干擾性。本文采用一種改進的基于卷積神經網絡的識別機制對衛星照片中的目標物體進行識別。該識別方法通過對目標物體圖片的學習,優化了系統中的關鍵參數的權值。大大提高了目標物體的識別率。

參考文獻:

[1] 高雋.智能信息處理方法導論[M].北京:機械工業出版社,2004.

[2] 高雋.人工神經網絡原理及仿真實例[M].北京:機械工業出版社,2003.

[3] 邊肇祺.模式識別[M].北京:清華大學出版社,1987.

卷積神經網絡的算法范文第4篇

關鍵詞:物聯網;人臉識別;視頻網絡

1物聯網及人臉識別視頻網絡技術的發展

1.1物聯網視頻網絡技術的發展狀況

最近幾年,隨著物聯網技術、圖像處理技術以及數據傳輸技術的快速發展,視頻網絡技術應運而生并取得了長足的發展。當前,視頻網絡系統作為一種模擬數字控制系統,其具有非常成熟和穩定的性能,已廣泛應用于實際工程中。雖然數字系統發展迅速,但尚未完全形成相應的體系,因此,混合數字和模擬應用程序逐漸遷移到數字系統將成為未來發展的主要趨勢之一。當前,國內外市場上主流的產品主要有兩種,即模擬視頻數字網絡系統、數字視頻網絡系統。前者技術先進,性能穩定,被廣泛應用于實際工程應用中,特別是大中型視頻網絡項目。后者作為一種新興技術,是一種通過以計算機技術和視頻壓縮為核心的新型視頻網絡系統,其有效的避免了模擬系統所存在的一些弊端,但未來仍需要進行不斷的改進和發展。外部集成、視頻數字化、視頻網絡連接、系統集成是未來視頻網絡系統發展的重要研究方向。數字化是網絡的前提,而網絡是系統集成的基礎。因此,視頻網絡領域的兩個最大發展特征是:數字化和網絡化。

1.2人臉識別視頻網絡的發展狀況

人臉識別技術作為模式識別領域中的一項前沿課題,截止目前,已有三十多年的研究歷史。人臉識別目前是模式識別和人工智能的研究熱點,目前主要采用AdaBoost分類器進行人臉區域的檢測,人臉識別研究的內容大致分為以下內容:(1)人臉檢測:其指的是在不同場景下的人臉檢測及其位置。人臉檢測是通過在整個輸入的圖像中找到一個合適的人臉區域為目的,并將該圖像分為人臉區域和非人臉區域兩部分。在實際的某些理想情況下,由于可以人為手動控制拍攝環境,因此,可以輕松確定人臉的位置;但是在大多數情況下,由于場景更加復雜,因此,人臉的位置是未知的。因而在實際的人臉識別視頻網絡過程中,首先必須確定識別場景中是否有人臉的存在,如果存在人臉,再進一步確定圖像中人臉的具體區域。(2)人臉識別:將系統檢測到的人臉特征信息與系統數據庫中存在的已知人臉信息進行充分識別與匹配,以此獲取相關信息,該過程的本質是選擇正確的人臉模型和匹配策略。在實際生活的應用當中,由于成人的面部模型處于不斷變化當中,且容易受到時間、光線、相機角度等方面的差異,因而很難用一張圖紙表達同一個人的面部圖像,這使得提取特征變得困難,由于大量的原始灰度圖像數據,神經元的數量通常很大并且訓練時間很長。除此之外,完全依賴于神經網絡的識別方法具有當前計算機系統固有的局限性,盡管神經網絡具有很強的感應能力,但是隨著樣本數量的增加,其性能可能會大大降低。簡而言之,由于年齡,表情,傾斜度和其他表征對象的因素的多樣性,很難進行人臉識別,因此,識別該對象的效果仍遠未達到現實。目前,普遍采用AdaBoost算法來對出現在視頻中的人臉區域進行檢測,以此達到實時獲取人臉圖像的目的,AdaBoost算法的原理是通過訓練得到多個不同的弱分類器并將這些弱分類器通過疊加、級聯得到強分類器,AdaBoost算法流程如圖1所示。(3)表情分析:即對面部表情信息(幸福,悲傷,恐懼,驚奇等)進行分析和分類。當前,由于問題的復雜性,正在對面部表情的分析進行研究,它仍處于起步階段。心理學表明,至少有六種與不同面部表情相關的情緒:幸福,悲傷,驚奇,恐懼,憤怒和惡心。即與沒有表情的面部特征相比,這六個表情的面部特征具有相對獨特的運動規則。(4)生理分類:分析已知面孔的生理特征,并獲得相關信息,例如種族、年齡、性別和職業。顯然,此過程需要大量知識,通常非常困難和復雜。

2物聯網卷積神經網絡人臉識別方法分析

卷積神經網絡是專門設計用于識別二維形狀的多層感知器。通常,可以使用梯度下降和反向傳播算法來訓練網絡。從結構上講,卷積神經網絡包含三個概念:局部感受野、權重共享和下采樣,使其在平移,縮放,傾斜或其他形式的變形中相當穩定。當前,卷積神經網絡被廣泛用于模式識別,圖像處理和其他領域。卷積神經網絡(CNN)用于提取目標人臉圖像的特征。訓練網絡后,將先前測試的模型用作面部分類器,微調可以縮短網絡模型的訓練時間。卷積神經網絡的基本體系結構是輸入層,卷積層(conv),歸約層(字符串),完全連接層和輸出層(分類器)。通常有多個卷積層+速記層,此程序實現的CNN模型是LeNet5,并且有兩個“卷積+下采樣層”LeNetConvPoolLayer。完全連接的層等效于MLP(多層感知器)中的HiddenLayer。輸出層是一個分類器,通常使用softmax回歸(有些人稱為直接邏輯回歸,它實際上是多類邏輯回歸)。LogisticRegression也直接提供了該軟件。人臉圖像在視頻監控中實時發送到計算機,并且面部區域部分由AdaBoost算法確定。在預處理之后,將臉部圖像注入到新訓練的預訓練模型中進行識別。該過程如圖2所示。

3物聯網人臉識別視頻網絡多目標算法優化

多目標優化問題的實質是協調并在各個子目標之間達成折衷,以便使不同的子目標功能盡可能地最佳。工程優化的大多數實際問題都是多用途優化問題,目標通常相互沖突。長期以來,多目標優化一直受到人們的廣泛關注,現在已經開發出更多的方法來解決多目標優化問題。如果多標準優化沒有最差的解決方案,那么通常會有無限多的解決方案,這并不是最差的解決方案。解決面部強調時,人們不能直接應用許多次等解決方案。作為最后的決定,我們只能選擇質量不是最低,最能滿足我們要求的解決方案。找到最終解決方案的方法主要有三種。因此,只有通過找到大量有缺陷的解決方案以形成有缺陷的解決方案的子集,然后根據我們的意圖找到最終的解決方案。基于此,多目標算法是通過將多準則問題轉變為一個關鍵問題,這種方法也可以視為輔助手段。這種方法的棘手部分是如何獲取實際體重信息,至于面部特征,我們將建議一種基于權重的多功能優化算法,該算法可以更好地反映臉部的特征。我們將人臉的每個特征都視為多個目標,并且在提取面部特征時,面部特征會受到外界的強烈影響,例如位置,光照條件和強度的變化,并且所有部位和每個部位都會受到影響。因此,我們可以使用加權方法從每個受影響的分數中提取不同的權重。通過開展試驗測試,結果表明,在有多目標優化的算法的作用下,比在沒有多目標優化的算法作用下人臉識別效果有所提高,大約提高了5—10個百分點。

4結論

鑒于多準則優化算法在科學研究的各個領域中的廣泛使用,本文提出了一種多準則優化算法來對復雜的多準則人臉圖像上的各種面部特征進行特征提取的多準則優化,以達到提高人臉識別率的目標、提高整個人臉識別視頻網絡系統的性能。

參考文獻

[1]江斌,桂冠.基于物聯網的人臉識別視頻網絡的優化方法研究[C]//物聯網與無線通信-2018年全國物聯網技術與應用大會論文集.2018.

[2]余雷.基于物聯網的遠程視頻監控優化方法研究[J].科技通報,2014(6).

[3]張勇.遠程視頻監控系統的傳輸技術的實現[D].電子科技大學,2011(9)

卷積神經網絡的算法范文第5篇

關鍵詞:卷積神經網絡;反向傳播算法;仿射變換;sloth;python;theano

中圖分類號:TP391.41 文獻標識碼:A 文章編號:1007-9416(2017)04-0096-02

隨著環保壓力的增大,各國已經開始利用攝像頭來監控漁船的捕撈活動,并運用機器學習技術來對漁船捕獲的魚類圖像進行自動的識別與分類從而扼制非法的捕撈。

目前計算機性能的飛速發展、圖像數據采集設備的廉價與普及促進了機器學習理論與方法的發展,數據科學家已經可以構建復雜的機器學習模型并利用從廉價的數碼攝像頭設備采集到大量的數據快速的訓練模型。吳一全等[1]采用了手動選擇特征的方法, 基于支持向量機對5種魚進行識別,各類魚的識別精度平均為83.33%。萬鵬等[2]計算魚的長軸方向各段的平均寬度與長度的比值并將其作為特征參數,利用3層BP(back propagation)神經網絡對鯽魚和鯉魚進行識別,識別精度為92.50%。但是這些方法都是基于手動選擇特征的機器學習方法,手動選擇特征的方法基于人的經驗選擇特征, 會導致遺漏重要的特征, 導致分類準確率低。深度學習中的卷積神經網絡能在訓練過程中自動學到“好”特征,避免了手動選擇特征。本次研究采用了基于VGG16的卷積神經網絡(CNN)來進行魚類分類,并運用了數據集擴增方法,dropout方法, batch normalization方法來降低模型的過擬合。但是原始數據集背景干擾很大,船上的人、物體和甲板上捕獲的魚類糅合在一起,直接采用原始數據集訓練會導致訓練出的模型穩定性不好。

基于上述分析,本文從原始數據出發,設計了一種目標檢測方法,即在原始訓練數據已經有魚類類別標簽的基礎上,再標注上一層表示魚類在圖片中坐標位置的標簽,然后利用這些二次標注過的數據訓練模型,就可得到一個既能預測魚在圖片中的坐標位置又能預測魚的分類的糅合模型。因為這兩種預測網絡在卷積層共同訓練一套濾波器,所以在訓練濾波器預測魚的坐標位置時,訓練完成的濾波器便能在另一方面輔助預測魚的分類,使特征提取只專注于魚的坐標區域,這樣就有效的排除了背景干擾。實驗結果顯示此模型具有很高的識別精度和魯棒性,能在背景干擾很強的圖片數據集上準確的完成魚類的識別和分類。

1 模型構建

實驗數據來源于某組織舉辦的圖像識別競賽。數據通過固定在漁船某個位置的攝像頭采集,通過采集甲板上捕獲的魚類照片,共采集到3777張共8個分類的照片作為訓練樣本,分別為長鰭金槍魚、大眼金槍魚、黃鰭金槍魚、鰍魚、月魚、鯊魚、其他、無魚類(表示沒有魚出現在照片里)。按一定比例做分層采樣,其中2984張用作訓練集,394張用作驗證集,399張用作測試集。訓練集用經過錯切幅度值為0.15的仿射變換作數據集擴增來降低過擬合,因為在從原始數據集上分層采樣得來的小樣本數據集上驗證顯示當錯切幅度值等于0.15時,模型在測試集上的分類精度最高。

在訓練集上采用sloth@款圖片標注工具手動標注魚類在圖片中的位置,并把這些標注結果和已有的魚類分類標注結果當做輸入數據和圖片數據一起傳給模型訓練。

本次研究的神經網絡模型結構如圖1所示。卷積層采用了被廣泛使用在圖像分類任務中的VGG模型的卷積濾波器的權重[3],并在其模型上作微調來實現本次研究的目標。

輸入層將不同尺寸的圖片統一轉換成244*244大小。

匯合層(max pooling)是指取一小塊像素區域的像素最大值,作用是可減少數據量,控制過擬合。

全連接層的權重采用反向傳播算法(back propagation)訓練,參數尋優采用隨機梯度下降方法。動態學習率設定方法采用了 Adam方法,可根據損失函數在迭代訓練中產生的信息自動調整學習率。

激活層函數采用RELU方法,公式為。最后一層預測魚類分類的激活曾需要把對應于各個分類的分數值轉換成總和為1的對應于各個分類的概率值,所以激活函數采用Softmax方法,公式如下

由于卷積神經網絡網絡強大的表示能力,為了降低模型的過擬合以及加快模型的訓練速度,本次工作在激活曾后面再依次加入一層dropout層和batch normalization層。dropout層是指隨機的舍棄一部分激活曾神經元的值,并將其置為0[4]。batch normalization層是指規范化每層激活層的輸出,并加入4個規范化參數來抑制模型訓練過程中的反規范化現象[5]。

2 程序實現

具體的軟件實現采用python編程語言和keras框架平臺。keras底層采用輕量易用的theano框架,并依賴計算機的顯卡來進行更快速的訓練工作。整個圖像分類的軟件框架主要由4部分組成,分別是輸入圖像數據處理、模型各個網絡層的實現及拼接、模型編譯、模型訓練及預測。下面按數據在模型中流動的順序具體的闡述各個部分的程序實現。

2.1 輸入圖像數據處理

主站蜘蛛池模板: 武城县| 乡城县| 墨玉县| 三台县| 台湾省| 章丘市| 红原县| 潞城市| 湘乡市| 都匀市| 晋州市| 阜宁县| 高要市| 双峰县| 恩施市| 韶山市| 连江县| 济南市| 望奎县| 南京市| 福清市| 桓台县| 建平县| 吴桥县| 唐山市| 客服| 莫力| 玉门市| 宁强县| 宜宾市| 九江市| 上栗县| 天峻县| 六枝特区| 东安县| 都昌县| 华池县| 许昌县| 新巴尔虎左旗| 五峰| 海口市|