前言:想要寫出一篇令人眼前一亮的文章嗎?我們特意為您整理了5篇卷積神經網絡的改進范文,相信會為您的寫作帶來幫助,發現更多的寫作思路和靈感。
中圖分類號:TP18 文獻標識碼:A 文章編號:1009-3044(2016)33-0167-04
如今在機器學習領域中,深度學習方法已經占據了相當重要的地位,通過模仿人X學習方式構造模型,在圖像、文本、語音處理方面取得了顯著成果[1]。目前應用較為廣泛的深度學習模型包含多層感知器模型(MLP)[2],卷積神經網絡模型和限制性玻爾茲曼機模型等[4]。多層感知器[2]網絡結構的神經節點一般分層排列,主要由輸入層,輸出層和一些隱層組成,同層之間的神經元節點無連接,相鄰的兩層神經元進行全連接,前一層的神經元的輸出作為后一層神經元的輸入,但本身此種算法存在著一些問題,那就是它的學習速度非常慢,其中一個原因就是由于層與層之間進行全連接,所以它所需要訓練的參數的規模是非常大的,所以對其進行改進,產生了卷積神經網絡模型。卷積神經網絡模型在圖像識別方面的應用十分廣泛[5,8,9]。從它的結構上來看,層與層之間的神經元節點采用局部連接模式,而并非MLP的全連接模型,這樣就降低了需要訓練的參數的規模。而在它卷積層中,它的每一個濾波器作為卷積核重復作用于整個輸入圖像中,對其進行卷積,而得出的結果作為輸入圖像的特征圖[6],這樣就提取出了圖像的局部特征。而由于每一個卷積濾波器共享相同的參數,這樣也就大大降低了訓練參數的時間成本。而本文,以卷積神經網絡為研究對象,在其模型的基礎上通過對其結構中卷積核也就是濾波器的大小進行調整并結合卷積核個數調整和gpu加速等已有的訓練提速方法,達到降低訓練時間并且對識別結果并無太大影響的目的。
1 卷積神經網絡
卷積神經網絡在MLP的基礎上,已經對結構進行了優化,通過層與層之間的局部連接以及權值共享等方式對要訓練的參數的進行了大幅減低。
1.1局部連接
BP神經網絡中,神經元在本層中呈線性排列狀態,層與層之間進行全連接,而在卷積神經網絡中,為了減少每層之間的可訓練參數數量,對連接方式進行了修改,相對于BP神經網絡的全連接,卷積神經網絡采取了局部連接的連接方式[7],也就是說按照某種關聯因素,本層的神經元只會與上層的部分神經元進行連接。
2.2 權值共享
在CNN中,卷積層中的卷積核也就是濾波器,重復作用在輸入圖像上,對其進行卷積,最后的輸出作為他的特征圖,由于每個濾波器共享相同的參數,所以說他們的權重矩陣以及偏置項是相同的。
我們從上圖看出,相同箭頭連線的權值是共享的,這樣在原有的局部連接的基礎上我們又降低了每層需要訓練的參數的數量。
2.3卷積過程
特征圖是通過濾波器按照特定的步長,對輸入圖像進行濾波,也就是說我們用一個線性的卷積核對輸入圖像進行卷積然后附加一個偏置項,最后對神經元進行激活。如果我們設第k層的特征圖記為[hk],權重矩陣記為[Wk],偏置項記為[bk],那么卷積過程的公式如下所示(雙曲函數tanh作為神經元的激活函數):
2.4 最大池采樣
通過了局部連接與權值共享等減少連接參數的方式卷積神經網絡中還有另外一個重要的概念那就是最大池采樣方法,它是一種非線性的采樣方法。最大池采樣法在對減少訓練參數數量的作用體現在兩個方面:
1 )它減小了來自m-1層的計算復雜度。
2 )池化的單元具有平移不變性,所以即使圖像在濾波后有小的位移,經過池化的特征依然會保持不變。
3卷積神經網絡整體構造以及減少訓練時間的方法
3.1使用GPU加速
本次論文實驗中,使用了theano庫在python環境下實現卷積神經網絡模型,在lenet手寫數字識別模型上進行改進,由于theano庫本身支持GPU加速,所以在訓練速度上實現了大幅度的提高。
3.2 數據集的預處理
本次實驗使用的兩個數據集是mnist手寫數字庫以及cifar_10庫
Mnist手寫數字庫具有60000張訓練集以及10000張測試集,圖片的像素都為28*28,而cifar_10庫是一個用于普適物體識別的數據集,它由60000張32*32像素的RGB彩色圖片構成,50000張圖片組成訓練集,10000張組成測試集。而對于cifar_10數據集來說,由于圖片都是RGB的,所以我們在進行實驗的時候,先把其轉換為灰度圖在進行存儲。由于實驗是在python環境下運行,theano函數庫進行算法支持,所以我們把數據集進行處理,此處我們對使用的數據集進行了格式化。格式化的文件包括三個list,分別是訓練數據,驗證數據和測試數據。而list中每個元素都是由圖像本身和它的相對應的標簽組成的。以mnist數據集為例,我們包含train_set,valid_set,test_set三個list,每個list中包含兩個元素,以訓練集為例,第一個元素為一個784*60000的二維矩陣,第二個元素為一個包含60000個元素的列向量,第一個元素的每一行代表一張圖片的每個像素,一共60000行,第二個元素就存儲了對相應的標簽。而我們取訓練樣本的10%作為驗證樣本,進行相同的格式化,而測試樣本為沒有經過訓練的10000張圖片。在以cifar_10數據集為實驗對象時,把其進行灰度化后,進行相同的格式化處理方式。
3.3實驗模型結構
本次實驗是在python環境下基于theano函數庫搭建好的lenet模型進行參數的調整,以達到在實驗準確度可接受情況下減少訓練時間的目的。
上圖為實驗中的基礎模型舉例說明實驗過程,首先以mnist數據集為例,我們的輸入圖像為一個28*28像素的手寫數字圖像,在第一層中我們進行了卷積處理,四個濾波器在s1層中我們得到了四張特征圖。在這里要特別的說明一下濾波器的大小問題,濾波器的大小可根據圖像像素大小和卷積神經網絡整體結構進行設置,舉例說明,假如說我們的輸入圖像為28*28像素的圖像,我們把第一層卷積層濾波器大小設置為5*5,也就是說我們用一個大小為5*5的局部滑動窗,以步長為一對整張圖像進行滑動濾波,則滑動窗會有24個不同的位置,也就是說經過卷積處理后的C1層特征圖的大小為24*24。此處的濾波器大小可進行調整,本論文希望通過對濾波器大小的調整,已達到減少訓練時間的目的,并尋找調整的理論依據。C1層的特征圖個數與卷積過程中濾波器數量相同。S1層是C1經過降采樣處理后得到的,也就是說四點經過降采樣后變為一個點,我們使用的是最大池方法,所以取這四個點的最大值,也就是說S1層圖像大小為12*12像素,具有4張特征圖。而同理S1層經過卷積處理得到C2層,此時我們濾波器的大小和個數也可以自行設置,得到的C2層有6張特征圖,C2到S2層進行降采樣處理,最后面的層由于節點個數較少,我們就用MLP方法進行全連接。
3.4實驗參數改進分析
由此可見,我們對濾波器的大小以及個數的改變,可以直接影響到卷積訓練參數的個數,從而達到減少訓練時間的目的。
從另一種角度來看,增大濾波器的大小,實際效果應該相似于縮小輸入圖像的像素大小,所以這樣我們可以預測增大濾波器的大小會減少樣本的訓練時間,但是這樣也可能會降低訓練后的分類的準確率,而濾波器的大小是如何影響訓練時間以及分類準確率的,我們通過對兩種圖片庫的實驗來進行分析。
4 實驗結果與分析
4.1以mnist手寫數字數據集作為實驗數據
我們知道卷積層可訓練參數的數字與濾波器的大小和數字有關,所以我們通過對卷積層濾波器大小的變化來尋找較為普遍的可減少訓練參數從而達到減少訓練時間的目的。在實驗記錄中,我們表格縱列記錄兩層卷積層濾波器大小,橫列分別為對已經過訓練圖像識別和對未經過訓練的驗證圖像進行識別的錯誤率,最后記錄每種濾波器大小搭配的使用時間。我們設定每次試驗都進行100次重復訓練,每次對權重矩陣進行優化。
此處我們記錄兩層濾波器大小之和作為橫坐標,比較濾波器大小與實驗之間的關系。兩層濾波器大小相加后相同的元素我們把其對應時間做平均。
4.2以cifar_10數據集作為實驗數據
同樣是以100次循環訓練進行測試,通過改變兩層中濾波器的大小來尋找減少訓練時間的設定。
此處以同樣的方法,記錄兩層濾波器大小之和作為橫坐標,比較濾波器大小與實驗之間的關系。
4.3實驗結果分析
從兩組試驗中,在不同的數據集下,我們得到了濾波器的大小與訓練時間成反比的關系,而在減少了訓練時間的同時確實增大了訓練的錯誤率。
5 總結
通過實驗結果分析表明,增大卷積層濾波器大小的方法,在此兩種數據庫的情況下,是有效減小訓練時間的方式,而在不同的數據庫對分類準確率的影響程度不同,mnist手寫數字數據庫中圖像之間的相似度非常高,所以濾波器的增大對準確率產生的負面影響較小,而ifar_10數據集中圖像之間的相似度較小,所以增大濾波器的大小對其分類結果的準確率的負面影響較大。
參考文獻:
[1]LeCun Y, Bengio Y, Hinton G. Deep learning[J]. Nature, 2015, 521(7553): 436-444.
[2] Ruck D W, Rogers S K, Kabrisky M. Feature selection using a multilayer perceptron[J]. ]Journal of Neural Network Computing, 1990, 2(2): 40-48.
[3]LeCun Y, Bengio Y. Convolutional networks for images, speech, and time series[J]. The handbook of brain theory and neural networks, 1995, 3361(10): 1995.
[4] Larochelle H, Bengio Y. Classification using discriminative restricted Boltzmann machines[C]//Proceedings of the 25th international conference on Machine learning. ACM, 2008: 536-543.
[5]Krizhevsky A, Sutskever I, Hinton G E. Imagenet classification with deep convolutional neural networks[C]//Advances in neural information processing systems. 2012: 1097-1105.
[6] Zeiler M D, Fergus R. Visualizing and understanding convolutional networks[C]//European Conference on Computer Vision. Springer International Publishing, 2014: 818-833.
[7] Jarrett K, Kavukcuoglu K, Lecun Y. What is the best multi-stage architecture for object recognition?[C]//2009 IEEE 12th International Conference on Computer Vision. IEEE, 2009: 2146-2153.
【關鍵詞】微表情識別 卷積神經網絡 長短時記憶
1 引言
人們的內心想法通常都會表現在面部表情上,然而在一些極端環境下,人們為了壓抑自己的真實內心情感時,他們的面部變化十分微小,我們通常稱之為微表情。在刑偵、醫學、教育、心理和國防等領域上,微表情的應用前景十分遠大, 不過即便是經過訓練的人也很難用肉眼來準確的檢測和識別微表情。其主要原因就是它的持續時間短,僅為1/5~1/25s,而且動作幅度很小。
人臉表情識別技術早已發展到一定程度了,甚至不少研究團隊提出的方法針對6種基本表情的識別率已經達到90%。然而微表情識別技術的研究在近幾年來才剛剛開始,如Pfister等提出了一種結合時域插值模型和多核學習的方法來識別微表情; Wu等設計了一種使用Gabor特征和支持向量機的微表情識別系統;唐紅梅等在LTP做出改進而提出的MG-LTP算法,然后采用極限學習機對微表情進行訓練和分類;Wang等提出了基于判別式張量子空間分析的特征提取方法,并利用極限學習機訓練和分類微表情。
上述的識別技術都是基于傳統機器學習的方法,而近幾年來,利用深度學習技術來解決圖像識別問題是當前的研究熱點。在ILSVRC-2012圖像識別競賽中,Krizhevsky等利用深度卷積神經網絡的自適應特征提取方法,其性能遠遠超過使用人工提取特征的方法,并且在近幾年內的ImageNet大規模視覺識別挑戰比賽中連續刷新了世界紀錄。
本文決定使用卷積神經網絡(CNN)來提取人臉微表情特征,它能讓機器自主地從樣本數據中學習到表示這些微表情的本質特征,而這些特征更具有一般性。由于微表情的特性,要充分利用微表情的上下文信息才能更為精確的識別微表情,這里我們采用長短時記憶網絡(LSTM),它是遞歸神經網絡(RNN)中的一種變換形式,它能夠充分的利用數據的上下文信息,在對序列的識別任務中表現優異,近幾年來它被充分的利用到自然語言處理、語音識別機器翻譯等領域。綜上所述,本文提出一種CNN和LSTM結合的微表情識別方法。
2 相關工作
2.1 卷積神經網絡模型
卷積神經網絡模型(CNN)最早是由LeCun等在1990年首次提出,現已在圖像識別領域取得巨大成功,它能夠發現隱藏在圖片中的特征,相比人工提取的特征更具有區分度,而且不需要對原始數據做過多的預處理。
卷積神經網絡(CNN)通過三種方式來讓網絡所學習到的特征更具有魯棒性:局部感受野、權值共享和降采樣。局部感受野是指每一個卷積層的神經元只能和上一層的一部分神經元連接,而不是一般神經網絡里所要求的全連接,這樣每一個神經元能夠感受到局部的視覺特征,然后在更高層將局部信息進行整合,進而得到整個圖片的描述信息。權值共享是指每一個神經元和上一層的部分神經元所連接的每一條邊的權值,和當前層其他神經元和上一層連接的每一條邊的權值是一樣的,首先@樣減少了需要訓練的參數個數,其次我們可以把這種模式作為提取整個圖片特征的一種方式。降采樣是指通過將一定范圍內的像素點壓縮為一個像素點,使圖像縮放,減少特征的維度,通常在卷積層之后用來讓各層所得到的特征具有平移、縮放不變形,從而使特征具有更強的泛化性。
2.2 長短時記憶型遞歸神經網絡模型
長短時記憶(LSTM)模型是由Hochreiter提出,它解決了傳統RNN在處理長序列數據時存在的梯度消失問題,這一切都要歸結于LSTM結構的精心設計。一個常規的LSTM結構如圖1所示。
每一個LSTM結構都有一個記憶單元Ct(t表示當前時刻),它保存著這個時刻LSTM結構的內部狀態,同時里面還有三個門來控制整個結構的變化,它們分別是輸入門(xt),忘記門(ft)和輸出門(ht),它們的定義如下所示:
(1)
(2)
(3)
(4)
(5)
(6)
其中σ是一個sigmod函數,而則表示輸入數據的非線性變化,W和b是模型需要訓練得到的參數。等式5展示了當前的記憶單元是由忘記門和上一時刻的內部狀態所控制的,ft決定了上一時刻的內部狀態對當前時刻的內部狀態的影響程度,而it則確定了輸入數據的非線性變換得到的狀態對當前時刻記憶單元的影響程度。等式6展示了輸出門和當前時刻的內部狀態決定了該LSTM的輸出。正因為這個巧妙的設計,LSTM就能處理長序列的數據,并且能夠從輸入序列中獲取時間上的關聯性,這一特性對于微表情的識別尤為重要。
3 網絡結構調優和改進
3.1 卷積神經網絡設計
本文針對輸入大小為96×96的灰度圖,構建了4個卷積層(C1,C2,C3,C4),4個池化層(S1,S2,S3,S4),1個全連接層(FC1)和1個Softmax層組成的卷積神經網絡結構,如圖2所示。卷積核(C1,C2,C3,C4)的大小分別為3×3,3×3,5×5,5×5,分別有32,32,32,64個。池化層的降采樣核大小均為2×2,并且全部采用的是最大采樣,每一個池化層都在對應的卷積層之后,而在所有的卷積層之后,連接了一個包含256個神經元的全連接層,為了盡可能的避免過擬合問題,本文在全連接層后加入一個p=0.75的Dropout層,除了softmax層,其余層的激活函數全部是采用ReLU,CNN的參數訓練都是采用隨機梯度下降算法,每一批次包含100張圖片,并設置沖量為0.9,學習速率為0.001。
3.2 長短時記憶型遞歸神經網絡設計
盡管CNN已經從人臉微表情圖片從學習到了特征,但是單一的CNN模型忽略了微表情在時域上的信息。于是我們提出通過LSTM來學習不同人臉表情在時域上的關聯特征。我們構建了多個LSTM層,以及一個softmax層。
我們首先先訓練好CNN的參數,然后把訓練好的CNN模型,作為一個提取人臉微表情的工具,對于每一幀圖片,我們把最后一個全連接層的256維的向量輸出作為提取的特征。那么給定一個時間點t,我們取之前的W幀圖片([t-W+1,t])。然后將這些圖片傳入到訓練好的CNN模型中,然后提取出W幀圖片的特征,如果某一個序列的特征數目不足,那么用0向量補全,每一個特征的維度為256,接著將這些圖片的特征依次輸入到LSTM的節點中去,只有t時刻,LSTM才會輸出它的特征到softmax層。同樣LSTM網絡的參數訓練還是采用隨機梯度下降算法,每一批次為50個序列,沖量為0.85,學習速率為0.01。
4 實驗
4.1 微表情數據集
該實驗的訓練數據和測試數據均來自于中國科學院心理研究所傅小蘭團隊的第2代改進數據庫CASMEII。該數據庫從26名受試者中捕捉到近3000個面部動作中選取的247個帶有微表情的視頻,并且給出了微表情的起始和結束時間以及表情標簽,由于其中悲傷和害怕表情的數據量并不多,因此本文選取了里面的5類表情(高興,惡心,驚訝,其他,中性),由于數據庫中的圖片尺寸不一樣并且是彩色圖片,因此先將圖片進行灰度處理,并歸一化到 大小作為網絡的輸入。本實驗采用5折交叉驗證的方法,選取245個微表情序列等分成5份,每個序列的圖片有10張到70張不等,每份均包含5類表情。
4.2 CNN+LSTM和CNN的對比實驗
從圖2中可以看出不同策略在五類表情里的識別率。當我們采用單一的CNN模型來對人臉微表情進行分類時,我們采取了dropout策略和數據集擴增策略來防止CNN過擬合。CNN+D表示采取了dropout策略的CNN模型,CNN+A表示采取了數據擴增策略的CNN模型, 即對每一張圖片進行了以下四種變換:旋轉、水平平移、垂直平移、水平翻轉。從而能將數據集擴增至4倍。CNN+AD表示采取了兩種策略的CNN模型。CNN+LSTM表示結合了CNN和LSTM的網絡模型。
從表1中我們可以看出,添加了策略的CNN,在人微表情識別上的表現要好于沒有添加策略的CNN,這可能是因為訓練圖片較少,而CNN網絡層次較深,導致沒有添加策略的CNN在訓練參數的過程中很容易就過擬合了。而對于CNN+LSTM的表現要好于單一的CNN模型,這說明LSTM的確能夠充分利用時域上的特征信息,從而能夠更好識別序列數據,這證明了CNN+LSTM的模型可以用于識別人臉微表情的可行性。從表1中,我們還可以看出高興和驚訝的表情識別率較高,而其他的則相對較低,這可能是因為高興和驚訝的區分度較大,并且樣本較多。
4.3 LSTM的參數調整
下面我們逐一的研究不同參數對CNN+LSTM模型的微表情識別率的影響程度。
圖4顯示輸入的序列個數為100左右能夠擁有相對較高的準確率,這說明只有充分利用每一個微表情序列的時域信息,這樣,訓練出的模型才更加具有一般性。
圖5顯示出當LSTM隱層的神經元個數為128時,此時的微表情平均識別率最高,這說明隱層需要足夠多的神經元才能保留更長的時域信息,對于微表情識別來說,能夠擁有更高的精度。
圖6顯示了LSTM隱層的個數為5時,該模型擁有最好的識別率,這說明較深的LSTM網絡才能充分挖掘特征的時域信息。因此經過以上實驗,我們得到了一個由5層LSTM,每一層包含128個神經元,并能夠處理長度為100的特征序列的模型。
4.4 和非深度學習算法的實驗對比
為了比較傳統機器學習算法和深度學習算法孰優孰劣,我們使用傳統機器學習算法在Casme2進行了一樣的實驗,從表2中可以看出,本文所提出的CNN+LSTM模型相對于這些傳統機器學習模型,有著較為優異的表現。
本文中的實驗均是基于Google的開源機器學習庫TensorFlow上進行的,硬件平臺是dell工作站:Intel(R) Core(TM) i7-5820K CPU、主頻3.3GHZ,內存64GB、Nvida GeForce GTX TITAN X GPU、顯存12GB。
5 結束語
本文針對傳統方法對微表情識別率低,圖片預處理復雜的情況,提出了采用卷積神經網絡和遞歸神經網絡(LSTM)結合的方式,通過前面的卷積網絡層來提取微表情的靜態特征,省去了傳統機器學習方法,需要人工提取特征的過程,簡化了特征提取的工作。然后再通過后面的遞歸神經網路,充分利用表情特征序列的上下文信息,從而在序列數據中發現隱藏在其中的時域信息,從實驗結果中可以看出,利用了時域信息的CNN+LSTM比單純使用CNN的識別率更高,而且相對于傳統機器學習方法也更為優秀。但是當數據量越大時,如果網絡的層次比較深的話,模型的訓練時間就會很長,并且極度依賴硬件設備,這算是深度學習通有的弊病。為了進一步投入到應用中去,接下來還得提高微表情的識別率,以及在實時環境下,如何能夠動態和準確的識別微表情,這些都將會是以后研究的重點。
參考文獻
[1]PORTER S,TEN BRINKE L.Reading between the Lies Identifying Concealed and Falsified Emotions in Universal Facial Expressions[J].Psychological Science,2008,19(05):508-514.
[2]Pfister T,Li X,Zhao G,Pietikainen M (2011) Recognising spontaneous facial micro-expressions.2011 Proc IEEE Int Conf Comput Vis (ICCV): IEEE.pp.1449-1456.
[3]Wu Q,Shen X,Fu X (2011) The Machine Knows What You Are Hiding: An Automatic Micro-expression Recognition System.In: D’Mello S,Graesser A,Schuller B,Martin J-C,editors.Affect Comput Intell Interact.Springer Berlin/ Heidelberg. pp.152-162.
[4]唐紅梅,石京力,郭迎春,韓力英,王霞. 基于MG-LTP與ELM的微表情識別[J].電視技術,2015,39(03):123-126.
[5]WANG S J,CHEN H L,YAN W J,et al. Face Recognition and Micro-Expression Recognition Based on Discriminant Tensor Subspace Analysis Plus Extreme Learning Machine[J].Neural Processing Letters,2014,39(01):25-43.
[6]Krizhevsky A,Sutskever I,Hinton G E.ImageNet classification with deep convolutional neural networks. In:Advances in Neural Information Processing Systems 25.Lake Tahoe, Nevada,USA:Curran Associates,Inc., 2012.1097?1105
[7]DENG J,DONG W,SOCHER R,et al.Imagenet:A large-scale hierarchical image database [C]//IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE,2009:248-255.
[8]BENGIO Y,DELALLEAU O.On the expressive power of deep archi-tectures[C]//Proc of the 14th International Conference on Discovery Science.Berlin:Springer-Verlag,2011:18-36.
[9]LeCun Y,Boser B,Denker J S,Howard R E,Hubbard W,Jackel L D,Henderson D.Handwritten digit recogni- tion with a back-propagation network. In: Proceedings of Advances in Neural Information Processing Systems 2. San Francisco,CA,USA:Morgan Kaufmann Publishers Inc.,1990.396-404.
[10]S可.卷積神經網絡在圖像識別上的應用研究[D].杭州:浙江大學[學位論文],2012.
[11]Hochreiter S,Sehmidhuber J.Long Short-Term Memory.Neural Computation,1997,9(08):1735-1780
[12]LUCEY P,COHN J F,KANADE T,et al.The Extended Cohn-Kanade Dataset ( CK + ): A complete dataset for ac- tion unit and emotion-specified expression [C] //IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops (CVPRW).New York:IEEE,2010:94-101.
[13]Dayan P,Abott L F.Theoretical Neuroscience.Cambridge:MIT Press, 2001.
[14]YAN W J, LI X, WANG S J, et al. CASME II: An Improved Spontaneous Micro-Expression Database and the Baseline Evaluation [J].Plos One, 2014,9(01):1-8.
[15]Yandan Wang,John See,Raphael C-W Phan,Yee-Hui Oh. Efficient Spatio-Temporal Local Binary Patterns for Spontaneous Facial Micro-Expression Recognition[J].PLOS ONE,2013,10(05): 11-12
[16]張軒閣,田彥濤,郭艷君,王美茜.基于光流與LBP-TOP特征結合的微表情識別[J].吉林大學學報:信息科學版, 2015,33(05):521-522.
[17]Martín Abadi, Paul BarhamJianmin, Chen el.TensorFlow:Large-Scale Machine Learning on Heterogeneous Distributed Systems[EB/OL].https:///abs/1605.08695.
關鍵詞:Deep Learning;多隱含層感知;DropConnect;算法
中圖分類號:TP181
Deep Learning是機器學習研究的新領域,它掀起了機器學習領域的第二次浪潮,并受到學術界到工業界高度重視。Deep Learning概念根源于人工神經網絡[3],它由Geoffrey Hinton等在Science上提出。它致力于建立模擬人腦分析學習機制的多層次神經網絡,并通過這種網絡分析解釋數據,如視頻、文本和聲音等。Deep Learning的多隱含層使得它具有優異的特征學習能力,而且學習得到的特征對數據有更本質的刻畫,從而有利于可視化或分類。它的“逐層初始化”(layer-wise pre-training[4])可以有效克服深度神經網絡在訓練上的難度。本文在對Deep Learning算法分析的基礎上,著重闡述了對Regularization of Neural Networks using DropConnect模型的改進。
1 Deep Learning算法分析
1.1 Deep Learning多隱含層感知架構
Deep Learning算法最優秀特征是多隱含層感知器架構,這種架構通過組合低層特征來形成更加抽象的高層屬性類別或特征,并實現對數據分布式表示。Deep Learning的多隱含層結構是由輸入層、隱層(多層)、輸出層組成的多層網絡(如圖1所示),只有相鄰層神經元之間有連接,同一層以及跨層節點之間相互無連接,每一層可以看作是一個淺層機器學習模型(如logistic regression,Support Vector Machines)。
圖1 含多個隱含層的Deep Learning模型
Deep Learning的多隱含層感知結構模擬的是人腦的大腦皮層工作。人大腦皮層計算也是分多層進行[5],例如圖像在人腦中是分多個階段處理,首先是進入大腦皮層V1區提取邊緣特征,然后進入大腦皮層V2區抽象成圖像的形狀或者部分,再到更高層,以此類推。高層的特征是由底層組合而成。使用含多隱含層感知器架構網絡主要優勢在于它能以更簡潔的方式表達比淺層網絡大得多的函數關系(如圖2)。通過這種深層非線性網絡結構,Deep Learning可以實現復雜函數的逼近,表征輸入數據的分布式表示,并展現了強大的從少數樣本集中學習數據集本質特征的能力。
圖2 多層次實現復雜函數圖
1.2 Deep Learning訓練過程
(1)首先逐層構建單層神經元,使得每次都是訓練一個單層網絡。
(2)當所有層訓練完后,使用Wake-Sleep算法[6]進行調優。
將除最頂層的其它層間的權重是雙向的。向上的權重用于“認知”,向下的權重用于“生成”。然后使用Wake-Sleep算法調整所有的權重。讓“認知”和“生成”達成一致,也就是保證生成的最頂層表示能夠盡可能正確的復原底層的結點。
1.3 Deep Learning數據處理一般過程
Deep Learning算法通過傳感器等方式獲得數據之后,首先對數據進行預處理。在數據預處理中,標準的第一步是數據歸一化處理,第二步是數據白化處理(如PCA白化和ZCA白化)。其次特征提取和特征選擇。然后將輸出作為下層的輸入,不斷進行特征提取和特征選擇,直到學習到合符要求的最佳特征。在特征提取和特征選擇過程中,常用自動編碼、稀疏編碼、聚類算法、限制波爾茲曼機、卷積神經網絡等算法進行特征提取和特征選擇。然后用反向傳播算法、隨機梯度下降算法、批量梯度下降算法等進行調優處理,再用池化等算法避免特征過度擬合,從而得到最終提取特征。最后將學習到的最終提取特征輸入到分類器(如softmax分類器,logistic回歸分類器)進行識別、推理或預測。
2 基于Regularization of Neural Networks using DropConnect模型改進
2.1 Regularization of Neural Networks using DropConnect模型[2]
該模型的四個基本組成成分是:
(1)特征提取:v=g(x;Wg)。x是輸入層的輸入數據,Wg是特征提取函數的參數,v是輸出的提取特征,特征提取函數g()。其中g()為多層卷積神經網絡算法函數,而Wg卷積神經網絡的偏值。
(2)DropConnect層:r=a(u)=a((M*W)v)如圖3。v是輸出的提取特征,W是完全連接的權重矩陣,M是二進制掩碼矩陣,該矩陣的每個元素隨機的以1-p概率設置為0或以p概率設置為1,a()是一個非線性激活函數,r是輸出向量。M*W是矩陣對應元素相乘。
(3)Softmax分類器層:o=s(r;Ws)。將r映射到一個k維的輸出矩陣(k是類的個數),Ws是softmax分類函數的參數。
(4)交叉熵損失:A(y,o)=-∑yi(oi),i∈1,2,3…k。y是標簽,o是概率。
圖3 DropConnect示意圖
2.2 模型改進描述和分析
對DropConnect模型的改進主要集中在上面它的四個基本組成成分中的DropConnect層。由于該層以隨機方式讓掩碼矩陣M的每個元素Mij按1-p的概率設置為0,然后讓掩碼矩陣與層間的權重矩陣對應相乘即M*W。相對DropOut模型r=a((M*(Wv))得到的特征,r=a((M*W)v)得到的特征是比較好的特征r,同時也提高算法的泛化性。因為Dropconnect模型在權重W和v運算之前,將權重以一定的概率稀疏了,從運行結果看整體算法的錯誤率降低了。但是,由于是隨機的讓Mij按1-p的概率為0,并且這種隨機是不可以預測的,故可能會導致某些重要特征對應的權重被屏蔽掉,最終造成輸出ri的準確性降低。故就此提出了新的設計思想。
改進思想是用單層稀疏編碼層代替DropConnect層,通過稀疏編碼訓練出一組最佳稀疏的特征。具體描述:讓經過多層卷積神經網絡提取到的特征v作為稀疏編碼的輸入,經過稀疏編碼重復訓練迭代,最終得到最佳的稀疏的特征r。因為稀疏編碼算法是一種無監督學習方法,用它可以尋找出一組“超完備”基向量來更高效地表示輸入數據。
總之任何對Deep Learning算法的改進,都是為了提取出最佳特征,并使用優秀的分類算法來分類、預測或推理,最終降低算法的錯誤率。而對于怎樣改進算法,以何種方式降低錯誤率,則沒有具體的限制。并且各種提取特征和特征選擇的算法之間并不是互斥的,它們之間可以有各種形式的嵌套,最終的目標都是提高算法的正確率和效率。
3 結束語
Deep Learning使得語音、圖像和文本等的智能識別和理解取得驚人進展,如Google Brain項目和微軟推同聲傳譯系統。它極大地推動了人工智能和人機交互快速發展。隨著從學術界到工業界的廣泛重視,Deep Learning算法的改進依然在繼續,Deep Learning算法的正確率和效率仍在不斷提高。Deep Learning的發展將加快“大數據+深度模型”時代來臨。
參考文獻:
[1]Hinton G E,Salakhutdinov R R.Reducing the dimensionality of data with neural networks[J].Science,2006(5786):504-507
[2]湯姆?米切爾.機器學習[M].北京:機械工業出版社,2003:1-280.
[3]吳昌友.神經網絡的研究及應用[D].哈爾濱:東北農業大學,2007.
[4]HINTON G,OSINDERO S,TEH Y. A fast learning algorithm for deep belief nets[J].Neural Computation,2006(07):1527-1554.
[5]Hubel D H, Wiesel T N. Receptive fields,binocular interaction and functional architecture in the cat's visual cortex[J].The Journal of physiology,1962(01):106.
[6]Chuang Gao,Bin Chen,Wei Wei.Dynamic detection of wake-sleep transition with reaction time-magnitude[J].Neural Regenerattion Research,2009(07):552-560.
(廣東外語外貿大學 金融學院,廣東 廣州 510006)
摘 要:作為一個具有巨大應用前景研究方向,深度學習無論是在算法研究,還是在實際應用(如語音識別,自然語言處理、計算機視覺)中都表現出其強大的潛力和功能.本文主要介紹這種深度學習算法,并介紹其在金融領域的領用.
關鍵詞 :深度學習;受限波茲曼機;堆棧自編碼神經網絡;稀疏編碼;特征學習
中圖分類號:TP181 文獻標識碼:A 文章編號:1673-260X(2015)01-0037-03
1 深度學習的研究意義
深度學習是一類新興的多層神經網絡學習算法,因其緩解了傳統訓練算法的局部最小性,引起機器學習領域的廣泛關注.深度學習的特點是,通過一系列邏輯回歸的堆棧作為運算單元,對低層數據特征進行無監督的再表示(該過程稱為預學習),形成更加抽象的高層表示(屬性類別或特征),以發現數據的分布式特征表示.深度學習的這種特性由于與腦神經科學理論相一致,因此被廣泛應用于語音識別、自然語言處理和計算機視覺等領域.
生物學研究表明[1]:在生物神經元突觸的輸出變化與輸入脈沖的持續時間有關,即依賴于持續一定時間的輸入過程,輸出信號既依賴于輸入信號的空間效應和閾值作用,也依賴于時間總和效應.
傳統的深度學習方法雖然較好地模擬了生物神經元的一個重要特性——空間總和效應上的深度,卻忽視了生物神經元的另一個重要特性——時間總和效應上的寬度[2].因此,對于連續的時間變量問題(如語音識別),傳統深度學習方法只能將連續的時間函數關系轉化為空間關系,即離散化為時間序列進行處理.這樣做有幾個弊端:
(1)可能造成深度學習算法對時間采樣頻率的十分敏感,魯棒性較差.這使得,不同時間尺度下,需要使用不同的數據和算法.這無疑是十分不方便的;
(2)導致深度網絡規模過大,使得計算開銷增大、學習效果變差、泛化性能降低;
(3)難以滿足實際應用對算法的實時性的要求,更難以體現連續輸入信息的累積效應,大大降低深度學習算法的實用性.
因此,對傳統的深度學習算法進行改進,使其不但具有“深度”,亦能具有“寬度”,能夠對連續時變數據進行更好的特征提取、提高算法效率和實用性,顯得勢在必行.基于這個切入點,本項目借鑒時頻分析與小波分析中的方法,結合數學分析領域中的泛函分析技術,與堆棧自編碼神經網絡相結合,提出一種新的深度學習算法——深度泛函網絡.為了驗證算法的有效性及優越性,本項目將把新算法應用于金融時間序列的領域.
在目前國內外對于深度學習的研究中,幾乎沒有任何將深度學習技術運用于金融數據的研究.通過提出并運用得當的深度序列學習方法,我們期望從金融數據中抽取更高級的、具有經濟學意義或預測性意義的高級特征(與人工設計的“技術指標”相對應),并開發相應的量化交易策略,并與其它傳統算法進行對比,以說明所提算法的可行性和優越性.
2 國內外研究現狀
人類感知系統具有的層次結構,能夠提取高級感官特征來識別物體(聲音),因而大大降低了視覺系統處理的數據量,并保留了物體有用的結構信息.對于要提取具有潛在復雜結構規則的自然圖像、視頻、語音和音樂等結構豐富數據,人腦獨有的結構能夠獲取其本質特征[3].受大腦結構分層次啟發,神經網絡研究人員一直致力于多層神經網絡的研究.訓練多層網絡的算法以BP算法為代表,其由于局部極值、權重衰減等問題,對于多于2個隱含層的網絡的訓練就已較為困難[4],這使得實際應用中多以使用單隱含層神經網絡居多.
該問題由Hinton[5]所引入的逐層無監督訓練方法所解決.具體地,該法對深度神經網絡中的每一層貪婪地分別進行訓練:當前一層被訓練完畢后,下一層網絡的權值通過對該層的輸入(即前一層的輸出)進行編碼(Encoding,詳見下文)而得到.當所有隱含層都訓練完畢后,最后將使用有監督的方法對整個神經網絡的權值再進行精確微調.在Hinton的原始論文中,逐層貪婪訓練是通過受限波茲曼機(Restricted Boltzmann Machine,RBM)以及相對應的對比散度方法(Contrastive Divergence)完成的.與通常的神經元不同,RBM是一種概率生成模型,通常被設計為具有二元輸入-輸出(稱為Bernoulli-Bernoulli RBM).通過對每一層的受限波茲曼機進行自底向上的堆棧(如圖1),可以得到深度信念網(Deep Belief Network,DBN).
除了生成式的RBM,還有其他的深度學習結構被廣泛使用和研究.如堆棧自編碼神經網絡(Stacked Auto-Encoder Network,SAEN)[6],以及深度卷積神經網絡(Deep Convolutional Network)[7]等.前者的優勢在于可以簡單地采用通常的BP算法進行逐層預訓練,并且引入隨機化過程的抗噪聲自編碼網絡(Denoising SAEN)泛化性能甚至超過DBN[8];而后者則通過權值共享結構減少了權值的數量,使圖像可以直接作為輸入,對平移、伸縮、傾斜等的變形具有高度不變性,因此在圖像識別領域有著廣泛應用.
近年來,稀疏編碼(Sparse Encoding)和特征學習(Feature Learning)成為了深度學習領域較為熱門的研究方向.B.A.Olshausen[9]等針對人腦的視覺感知特性,提出稀疏編碼的概念.稀疏編碼算法是一種無監督學習方法,它用來尋找一組“過完備”的基向量來更高效地表示輸入數據的特征,更有效地挖掘隱含在輸入數據內部的特征與模式.針對稀疏編碼的求解問題,H.Lee等在2007年提出了一種高效的求解算法[10],該算法通過迭代地求解兩個不同的凸規劃問題以提高效率.同年,H.Lee等發現,當訓練樣本為圖像時,對DBN的訓練進行稀疏性的約束有利于算法學習到更高級的特征[11].例如,對手寫識別數據集進行訓練時,稀疏性約束下的DBN算法自主學習到了“筆畫”的概念.
基于[10,11]的研究成果,R.Raina等[12]提出了“自導師學習(Self-Taught Learning)”的概念.與無監督學習(Unsupervised Learning)和半監督學習(Semi-supervised Learning)不同,自導師學習利用大量易獲得的無標簽數據(可以來自不同類別甚至是未知類別),通過稀疏編碼算法來構建特征的高級結構,并通過支持向量機(Support Vector Machine,SVM)作為最終層分類器對少數有標簽數據進行分類.這種更接近人類學習方式的模式極大提高了有標簽數據的分類準確度.與之類似,H.Lee,R.Grosse等[13]提出了一種具有層次結構的特征學習算法.該算法將卷積神經網絡與DBN結合,并通過稀疏正則化(Sparsity Regularization)的手段無監督地學習層次化的特征表征.圖像識別實驗表明,該算法能夠自主學習得出“物體(Object Parts)”的概念,較好體現了人腦視覺感知的層次性和抽象性.
3 發展趨勢
由于信號處理、語音識別、金融時間序列分析、視頻分析等領域的實時應用需求,研究能夠處理連續時變變量、自然體現時間聯系結構的深度學習算法(即深度序列學習,Deep Sequence Learning)成為了新的研究熱點.G.W.Taylor,G.E.Hinton等[14]提出時間受限波茲曼機(Temporal RBM,TRBM).該模型使用二值隱含元和實值可視元,并且其隱含元和可視元可以與過去一段歷史的可視元之間可以有向地被相連.同時,該模型被用于人類動作識別,并展現出了優秀的性能.針對TRBM的一些不足,一些改進算法也不斷涌現,如[15,16].然而,該類深度學習模型雖然考慮了動態的時間變量之間的聯系,但依然只能處理離散時間問題,本質上還是屬于轉化為空間變量的化歸法.同時,在自編碼網絡框架下,依然缺乏較好解決時間過程(序列)問題的方案.
4 金融時序數據中的應用
傳統金融理論認為,金融市場中的證券價格滿足伊藤過程,投資者無法通過對歷史數據的分析獲得超額利潤.然而,大量實證研究卻表明,中國股票價格波動具有長期記憶性,拒絕隨機性假設,在各種時間尺度上都存在的可以預測的空間.因此,如何建立預測模型,對于揭示金融市場的內在規律,這無論是對于理論研究,還是對于國家的經濟發展和廣大投資者,都具有重要的意義.
股票市場是一個高度復雜的非線性系統,其變化既有內在的規律性,同時也受到市場,宏觀經濟環境,以及非經濟原因等諸多因素的影響.目前國內外對證券價格進行預測的模型大致分為兩類:一是以時間序列為代表的統計預測模型;該類方法具有堅實的統計學基礎,但由于金融價格數據存在高噪聲、波動大、高度非線性等特征,使得該類傳統方法無法提供有效的工具.另一類是以神經網絡、支持向量機等模型為代表的數據挖掘模型.該類模型能夠處理高度非線性的數據,基本上從擬合的角度建模.雖然擬合精度較高,但擬合精度的微小誤差往往和市場波動互相抵消,導致無法捕捉獲利空間甚至導致損失,外推預測效果無法令人滿意.因此,建立即能夠處理非線性價格數據,又有良好泛化能力的預測模型勢在必行.
——————————
參考文獻:
〔1〕Zhang L I, Tao H W, Holt C E, et al. A critical window for cooperation and competition among developing retinotectal synapses[J]. Nature, 1998, 395(6697).
〔2〕37-44.歐陽楷,鄒睿.基于生物的神經網絡的理論框架——神經元模型[J].北京生物醫學工程,1997,16(2):93-101.
〔3〕Rossi A F, Desimone R, Ungerleider L G. Contextual modulation in primary visual cortex of macaques[J]. the Journal of Neuroscience, 2001, 21(5): 1698-1709.
〔4〕Bengio Y. Learning deep architectures for AI[J]. Foundations and trends? in Machine Learning, 2009, 2(1):1-127.
〔5〕Hinton G E, Osindero S, Teh Y W. A fast learning algorithm for deep belief nets[J]. Neural computation, 2006, 18(7): 1527-1554.
〔6〕Vincent P, Larochelle H, Bengio Y, et al. Extracting and composing robust features with denoising autoencoders[C]//Proceedings of the 25th international conference on Machine learning. ACM, 2008: 1096-1103.
〔7〕Lee H, Grosse R, Ranganath R, et al. Convolutional deep belief networks for scalable unsupervised learning of hierarchical representations[C]//Proceedings of the 26th Annual International Conference on Machine Learning. ACM, 2009: 609-616.
〔8〕Vincent P, Larochelle H, Lajoie I, et al. Stacked denoising autoencoders: Learning useful representations in a deep network with a local denoising criterion[J]. The Journal of Machine Learning Research, 2010, 9999: 3371-3408.
〔9〕Olshausen B A, Field D J. Sparse coding with an overcomplete basis set: A strategy employed by V1?[J]. Vision research, 1997, 37(23): 3311-3325.
〔10〕Lee H, Battle A, Raina R, et al. Efficient sparse coding algorithms[J]. Advances in neural information processing systems, 2007, 19: 801.
〔11〕Lee H, Ekanadham C, Ng A Y. Sparse deep belief net model for visual area V2[C]//NIPS. 2007, 7: 873-880.
〔12〕Raina R, Battle A, Lee H, et al. Self-taught learning: transfer learning from unlabeled data[C]//Proceedings of the 24th international conference on Machine learning. ACM, 2007: 759-766.
〔13〕Lee H, Grosse R, Ranganath R, et al. Convolutional deep belief networks for scalable unsupervised learning of hierarchical representations[C]//Proceedings of the 26th Annual International Conference on Machine Learning. ACM, 2009: 609-616.
〔14〕Taylor G W, Hinton G E, Roweis S T. Modeling human motion using binary latent variables[J]. Advances in neural information processing systems, 2007, 19: 1345.
關鍵詞:智能科學與技術;興趣導向;逆向教學
0引言
智能科學與技術是信息科學與技術的核心、前沿與制高點,也是整個現代科學技術體系的頭腦中樞,是現代科學技術創新的引領和示范,是現代社會(包括經濟、社會、文化、民生、國防等)走向智能化的主導技術支柱。在越來越激烈尖銳的國際競爭環境中,智能科學與技術水平已經成為一個國家綜合國力與科技實力的標志。智能科學與技術的發展和智能科學與技術學科的人才培養,不僅僅是智能科學與技術研究與教育本身的事情,更是關系到整個社會智能化發展優劣的大事情,也是關系到整個國家強弱興衰的大事情。
科技發展,關鍵在于人才。在新的發展機遇下,國家對智能科學與技術專門人才的需求更加旺盛。因此,如何促進智能科學與技術教學方式的改革是培養厚基礎、高層次的智能科學與技術人才的基本途徑。智能科學與技術教學方式的改革,不僅發展智能科學與技術本身,而且對受教育者創新能力的提高也至關重要。
目前,網絡的普及與全社會信息化程度的提高,對我國人才培養提出了更高的要求,特別是高校在課堂教學方面,部分原有教材及培養模式亟待調整。以智能科學與技術為代表的前沿新興學科,在學科發展途徑、應用技術轉化及從業人員年齡、成長環境等方面,均與很多傳統學科存在較大的差異,而使用傳統教學方式進行人才培養,也出現了一些水土不服的現象。
1教學理念的改變
相對于傳統學科,智能科學與技術從業人員平均年齡顯現出年輕化的特點,且由于從業人員及學生普遍年齡較輕,在他們的成長過程中,外在環境相對寬松,自由、平等的理念在他們的成長過程中不斷被提及和強化。傳統“教師講、學生聽”的演講式講授方式雖然能夠在一定時間內讓學生了解大量信息,但學生接收到的大部分信息只停留在記憶層面,很難上升到理解層面,導致學生只是被動的“填鴨式”接受。
在科技發達、網絡互聯的今天,人們不是自投羅網就是被網羅其中,知識獲取的渠道不再局限于紙質媒介和言傳身教,更多來自于電子資源及網絡媒介,教師和學生獲取知識的途徑及資源差異越來越小,在知識量、閱歷等方面縮小了師生間的差距,師生之間傳統的信息不對稱差距逐步縮小,導致教師在知識積淀上沒有了絕對優勢。
與此同時,逐步深入青年學生內心的自由、平等觀念對中國傳統的尊師重道思想帶來了不小的沖擊。在當今開放的網絡環境下,針對新興時代的學生,傳統習俗中的師長觀念由于知識獲取渠道的平等化而缺乏強有力的現實支撐,教師的身份權威性和知識權威性都受到了不同程度的質疑,繼續使用“填鴨式”“訓導式”教學方式,將會事倍功半。
因此,針對新興學科,一線教師需要進行教學理念上的修正,特別是教師應順應培養對象的整體特點,基于自由和平等的觀念進行自我定位,以交流討論式代替居高臨下布施式的教學觀念,充分與學生打成一片,以便更好地調動學生的思維,引導學生進行主動思考和主動學習。
2教學素材的改進與提高
當今時代是知識爆炸的時代,科學技術日新月異,新知識、新成果層出不窮,特別是智能科學與技術這一前沿學科,正在向理論創新和大規模實際應用發展,新理論、新方法不斷被提出并驗證,新模型、新實例、新應用不斷產出。
“教學素材對教育理念的滲透發揮著重要作用,它已經成為促進或阻礙教學模式轉變的活躍而關鍵的要素。隨著新時代知識的快速更新換代和知識面的不斷拓寬,教學素材是否優秀的標準不僅僅是包含多少知識,更重要的是包含多少最新的知識;不僅僅是傳遞解決問題的方法,更重要的是傳遞超前、新穎的解決問題的方法。
當今學生知識涉獵面廣,現有的網絡環境也為他們提供了很好的平臺,如果他們已經獲取的知識及應用的先進程度遠遠超過課本素材羅列的知識,將會極大地削弱他們對本學科的興趣,進而影響課堂教學效果。
此外,作為智能科學與技術這一前沿學科的教學素材,必須體現出時代性、開放性、多元性與全面性。因此,教學過程中所采用素材的改進和提高,應該向著不斷更新、與時俱進的方向靠攏,教師應該不斷將最新理論、最新方法、最新應用融合于一線基礎教學過程中,使學生在學習過程中始終緊跟前沿技術的發展,在未來工作中能更快、更好地融入行業中。
3教學方式的轉變
目前,學生群體主要為90后,高校即將迎來00后,他們成長過程中的家庭環境和社會環境與早期學生相比更為平等和寬松,他們的學習需求也由目標導向型逐步演化為興趣導向型。因此,如何激發學生的興趣,進而以興趣為基礎激發學生自主學習的動力,將是教學效果事半功倍的途徑。
青年學生正處于思維高度活躍的階段,他們往往對新興成果和前沿熱點有著超過常人的關注,如何巧妙而有效地將這種關注轉化為針對本學科的興趣,進而反向推導出基礎理論并讓學生消化、吸收,就成為一線教師面臨的重要問題。
從1997年國際象棋大師卡斯帕羅夫和電腦“深藍”第一次人機大戰開始,智能科學與技術迅速躋身科技前沿熱點,且經久不衰。2016年3月,Alpha Go再次燃起人工智能之火,經過媒體的推波助瀾,成為社會關注的焦點,大大增強了智能科學與技術的關注度。而青年學生作為最容易追趕潮流的群體,自然對此類熱點趨之若鶩。
作為智能科學與技術學科的一線教師,應把握和利用社會輿論的潮流以及學生心理的律動,及時以此熱點為突破口,吸引學生的興趣,引起共鳴,進而進行反向推導相關基礎理論并加以詳解。
例如,教師以Alpha Go為課堂開篇討論,引導學生思考,并說明Alpha Go的核心原理是深度學習。在這個實例中,Alpha Go模擬人類下棋的推理與思考過程,其中推理過程通過搜索樹來搜索可能的棋局,思考過程通過兩個深度神經網絡確定可能的搜索方向和評估棋局,這兩個神經網絡包括:
(1)落子選擇器(policy network),這是一種深度卷積神經網絡,主要通過當前棋盤布局預測下一步走棋位置的概率。
(2)棋局評估器(value network),與落子選擇器具有相似的結構,主要在給定棋子位置的情況下,輸出雙方棋手獲勝的可能性,從而對棋局進行評估。
如此,教師可以帶領學生了解搜索樹及搜索算法,也可以從深度卷積神經網絡到普通神經網絡,講解神經網絡的基礎知識,分析神經網絡到深度學習的發展過程。這樣就可以將學生對Alpha Go本身的興趣,巧妙地引導到對神經網絡等基礎概念和原理方面,以此強化學生對基礎知識的掌握。
同時,開放式的考核方式也是促進學生創新、使教學方法適應新時代的一種有效途徑。對于本學科感興趣的話題,教師應鼓勵學生多談自己的思路和想法;對于開放式課題,應給學生提供展示的舞臺,鼓勵學生分享自己在查找資料、解決難點、編程過程中的心得體會,充分調動學生的積極性和主動性;將這些考核成績按比例計入學生課業總成績中,充分肯定學生的創新能力。
4結語
教學成效是設計和構建教學方式的基本出發點,教師應該結合學生需求從學習成效、教學技巧、教學內容上總體把握教學方式閣,采用不同于傳統講授方式的逆向教學(如圖1所示),使其滿足和順應新一代青年學生的心理認同需求和學習需求,將新理論、新應用不斷融入基礎教學中,達到更好的教學效果。