前言:想要寫出一篇令人眼前一亮的文章嗎?我們特意為您整理了5篇卷積神經網絡的步驟范文,相信會為您的寫作帶來幫助,發現更多的寫作思路和靈感。
關鍵詞:
中圖分類號: TP391.413 文獻標志碼:A
0引言
現行的手勢識別方法的主要步驟是提取精確的手勢區域,然后作形狀或者輪廓識別。提取手勢區域的方法有依賴于測距設備的方法,比如Kinect[1-2]、雙目設備[3],也有依賴于單目視覺的方法[4]。前者的主要原理是人機交互中手的位置距離傳感器應該在一定的區間內,之后進行距離閾值分割。而基于視覺的方法主要是確定合理的膚色閾值,進行膚色分割和去噪,確定手勢區域或者輪廓。
這些方法雖然依賴的特征不同,但是在整體處理步驟上比較相似,都需要首先對手勢區域進行精確的分割。方法面臨的挑戰主要集中在復雜環境下的手勢分割。如果希望算法在距離、光照可變的環境下表現出良好的魯棒性,一般會將很多非手勢的區域也識別為手勢,這將增加手勢分割的難度,在復雜背景下,這一問題會更加明顯。在背景環境復雜時如果想降低手勢分割的難度,一般需要對輸入的圖像特征進行更嚴格的提取,這同時也降低了模型的魯棒性,在光照、距離等條件變化時,會出現丟失手勢的問題。
兩類問題相互制約,針對這一情況,研究者們把精力主要放在如何更加精準地提取特征上面。用作手勢分割的特征主要集中在膚色[4]和距離[1,3],有的學者采取了將輪廓信息結合先驗形狀來進行更加準確的分割方式來處理這一問題[5],此類方法被廣泛地用于邊緣提取領域,在針對小規模噪聲區域以及手勢類別較少的情況時能獲取不錯的效果。主要問題是對于多個先驗形狀的表達沒有特別理想的方案,在形狀增多之后,形狀項的作用明顯下降,這與形狀之間本身的沖突有關。更重要的一點是圖像分割方法一般耗時都在數秒甚至數十秒,時間復雜度上無法滿足手勢識別的需要。因為手勢分割的運用場景多為動態場景,所以運動目標檢測的方法也經常用來輔助手勢分割。
現行手勢分割方法中最常用的是按照提取膚色特征、二值化、形態學濾波、運動目標特征或者距離特征協助檢測這個過程處理[3-4]。有時還需要做人臉檢測,排除人臉區域的干擾。融合了多種特征的方法在光照變化和背景擁有類似膚色的物體時仍然會出現不能有效分割的情形。
在手勢識別方面,Dardas等[6]提出了一種基于特征包的手勢識別方法,在識別率和計算效率上都取得了較好的結果。對于良好的手勢輪廓,Belongie等[7]提出的形狀上下文能夠得到高準確率和對非剛性畸變魯棒的結果。矩特征,指尖等手勢的幾何特征[1]也經常被用作為手勢識別的特征。卷積神經網絡能夠自動獲取特征,在處理靜態圖片時表現出了非常高的準確率,同時對噪聲以及各種形變魯棒。
本文提出一種新的方法來解決手勢識別中魯棒性和算法復雜性之間的矛盾。該方法第1步使用二進制運算實現的支持向量機(Support Vector Machine, SVM)分類器并用位運算代替滑動窗口,快速提取出多個可能的備選區域。第2步使用卷積神經網絡來完成手勢的再判定與識別工作。文中算法的實現方式非常關鍵,直接關系模型的運算效率。第1步中使用的分類器為線性SVM模型,需要在支持64位整型機器的環境下使用二進制運算的方式實現,在執行效率上相對于基于滑動窗口的算法有著100倍左右的提升[8]。第2步使用的分類器為卷積神經網絡,在實現上使用了統一計算設備架構(Compute Unified Device Architecture, CUDA)進行卷積運算的加速,能獲得10倍左右的加速比[9]。
1手勢區域提取
本文手勢區域提取的方法不要求精確提取手勢輪廓或者鎖定備選框。該方法核心思想是用最短的時間排除掉絕大部分的搜索區域,剩下無法判斷的區域結合其他方法進行處理。
方法本身并不依賴于特定特征,所有能夠用來排除大量備選區域的特征均可以使用,比如通過測距設備獲取的距離似然特征,使用視覺設備獲取的膚色似然特征。因為膚色似然特征對于硬件的要求更低,本文選擇膚色似然特征進行實驗。
1.1獲取膚色特征
本文使用橢圓模型提取膚色似然區域[10-11]。首先將膚色變換到YCbCr空間,橢圓膚色模型認為膚色在Cr和Cb分量組成的空間里的分布集中在一個橢圓區域內。該橢圓中心點坐標為(155.6,103),長短軸比例為1∶1.6,旋轉角度為43°。式(1)描述了Cr和Cb組成的空間中的像素點距離橢圓中心的距離,也可以理解成是膚色的概率。該值恒大于0,最大值為255,標準差系數為σ2。可以通過調整標準差系數σ2來控制膚色判斷的嚴格程度,不同σ2下的分割效果如圖1所示。不同的標準差系數對于膚色區域的判斷影響十分明顯。當σ2較小時提取區域判斷為膚色的區域很小,此時真實的手勢區域可能被誤檢成非手勢區域;當σ2增大時,膚色似然圖中判斷為膚色的區域會一直增加,此時膚色似然圖中被誤檢為膚色的區域也會增加。
光照變化和膚色的多樣性會影響膚色似然特征的計算。針對光照變化以及膚色變化的情況。有以下方法可以改善:
方法1使用對光照魯棒的特征,比如距離似然特征。
方法2使用較大的標準差系數σ2,后面提取區域的過程中使用較多的備選框以提高召回率。
方法3使用迭代的方法調整橢圓模型的中心坐標和標準差系數,方法3一般用于光照連續變化場景,比如視頻流的處理。
1.2膚色似然特征與手勢區域檢測
獲取膚色似然圖之后,下一步需要計算似然圖中的手勢區域。手勢區域和非手勢區域在8×8膚色似然圖下有著明顯的差別,如圖2所示。這一步的思路是使用滑動窗口的方法,對膚色似然圖進行遍歷。因為最終需要處理是在遍歷的過程中將窗口中的膚色似然圖像作為手勢區域分類器的輸入,得到一個“窗口值”,用來確定是否為備選窗口。
考慮到手勢識別應用場景多為人機交互,手勢的長寬比固定,不會被人為拉伸,所以選用“正方形”滑動窗口;并且手勢區域在整幅圖像中所占比例會有所變化但變化幅度不大,所以不用設定太多不同尺度的滑動窗口。在此處設定4個不同尺度的手勢區域48×48、64×64、80×80、96×96用以檢測不同大小的手勢。
為了保證滑動窗口的大小始終為8×8,將膚色似然圖調整為不同的尺度,以尺度為360×240的膚色似然圖為例,當手勢區域大小由48×48調整為8×8時,膚色似然圖的長寬也對應變化原圖的1/6,變為60×40。大小為的64×64、80×80、96×96的手勢區域所對應的調整后的膚色似然圖尺度分別為45×30、36×24、30×20,如圖2(d)所示。
在分類器的選擇上選用的是線性SVM分類器[12]。實驗正樣例選取的均為人工標記的手勢區域的膚色似然圖,在選取正樣例的過程中可以先使用少量樣本訓練一個線性SVM分類器,然后使用該分類器進行樣本初篩,之后再人工調整。負樣例是在正樣例以外的區域中隨機選取。正負樣本均需要進行歸一化處理,處理成為8×8的區域。“窗口值”表示SVM系數矩陣和8×8的內積。“窗口值”的計算過程如式(2)所示:
s=〈w,x〉;w∈R8×8,x∈{0,1,…,255}8×8(2)
其中:w為權值矩陣;x為膚色似然圖的像素值,如圖2(c)所示;s為滑動窗口的“窗口值”。
1.3BISL二進制膚色似然特征
為了加速滑動窗口的計算,本文借鑒了文獻[8]中一般物體識別時用到的方法,使用64位整型表示8×8的二進制矩陣,并且使用一些列的位運算操作來實現加速[13-14]。二進制膚色似然特征(Binary Skin LikeHood, BISL)特征,是將膚色似然特征使用多個64位整型表示之后形成的特征。
1.3.1近似參數矩陣w
線性模型矩陣w∈R8×8可以使用文獻[13]中的算法1對其進行近似可得w≈∑Nwj=1βjaj。其中:Nw代表基向量的個數;aj∈{-1,1}8×8代表基向量; βj∈R代表相應基向量的系數。
算法1使用二進制方法近似w。
程序前
輸入:w,Nw。
輸出:{βj}Nwj=1,{aj}Nwj=1。
初始化殘差:ε=w
for j=1 to Nw do
aj=sign(ε)
βj=〈aj,ε〉/aj2(將殘差ε映射到aj上)
ε=ε-βjaj(更新殘差)
end for
程序后
1.3.2處理輸入矩陣x
本文截取x的高Nx位近似x(如圖3(a)),x可以由BISL特征表示成如下形式:
x=∑Nxk=128-kbk(5)
其中:x∈{0,1,…,255}8×8,bk∈{0,1}8×8。
算法2對區域獲取BISL特征。
參數含義:bx,y∈{0,1}8×8,rx,y∈{0,1}8,bx,y∈{0,1}。
程序前
輸入:膚色似然圖的二進制值bW×H。
輸出:BISL特征組成的矩陣bW×H。
初始值:bW×H=0,rW×H=0
for each position(x,y) in scanline order do
rx,y=(rx-1,y
bx,y=(bx,y-1
end for
程序后
通常來說,獲取8×8的BISL特征需要遍歷64個位置。Cheng等[8]巧妙地利用了64位整型的特點,在算法2中使用了“按位或”和“移位”操作避免了循環。首先BISL特征bx,y和它的最后一行rx,y分別使用一個INT64變量和一個byte變量存儲。然后相鄰的BISL特征有重復的部分,可以通過左移8位操作保留重復的部分并給不同的部分騰出空間,將騰出的這8位的空間與新的byte變量進行“按位與”,就獲取了新的BISL特征。相鄰的byte變量的獲取過程與之類似。
綜合式(4)和(5)可以得到由BISL特征和分類器參數計算出窗口值:
s≈∑Nwj=1βj∑Nxk=1Cj,k(6)
其中Cj,k=28-k(2〈a+j,bk,l〉-bk,l)。
將窗口值topk的窗口作為候選窗口,進行進一步的識別。k的取值由實驗環境確定,k越大,手勢檢測模型召回率越高,進一步識別的時間復雜度也會增加。
2使用卷積神經網絡進行手勢識別
本章所提輸入是手勢檢測部分所得到的窗口值排名前k的候選窗口,這些窗口區域都是在上一步被判定為極有可能為手勢的區域,所以本章中需要使用更為復雜的特征和更強的分類模型來處理這個問題。卷積神經網絡和一般的神經網絡相比,具有權值共享、局部感知等特點[15-16],充分地利用了輸入值的空間關系信息,并且容易使用硬件加速[9]。綜合考慮模型的分類能力、魯棒性以及識別效率等因素,本文使用卷積神經網絡進行手勢識別。
2.1樣本、特征以及網絡結構
卷積神經網絡的訓練樣本是根據手勢檢測步驟中得到的窗口值topk 8×8窗口計算出來的。在確定窗口值topk 8×8窗口時,記錄下這k個窗口在對應的膚色似然圖中的坐標。根據這個坐標計算出原圖像所對應的窗口坐標。這個過程可以看作是根據圖2(c)中的8×8窗口位置來獲取圖2(a)中對應尺度的窗口圖像位置,進而獲得窗口圖像。在獲取窗口圖像后,本文將備選窗口圖像大小調整為29×29,然后計算它的膚色似然圖,得到29×29的膚色似然圖作為卷積神經網絡的輸入。卷積神經網絡的特征選擇可以有很多,比如窗口的灰度圖、梯度特征、局部二進制特征。選用29×29的膚色似然圖的原因是膚色似然圖在膚色檢測的過程中已經計算過一遍,不需要再重復計算。訓練樣本一共分為10類,6個備選手勢類,4個錯誤類。這里設計4個錯誤類的原因是因為在手勢區域提取的過程中,被錯分成手勢區域的候選框是有著明顯的特點的。主要的幾類情況是識別到手勢邊緣,識別到手勢中心,識別到非手勢區域,可以參考圖2(b)的情形。在網絡設計的時候需要重點關注這些錯誤的情形,實驗發現,將所有的錯誤情形視為1類的模型識別率要低于將錯誤情形分成4類的模型。將錯誤情形分為4類的卷積神經網絡一共有10個輸出節點,其中6個代表6種不同的手勢,另外4個代表4類典型的錯誤。需要注意的是,在計算模型準確率的時候并不將4類錯誤加以區分。假定4類錯誤分別為錯誤1、錯誤2、錯誤3、錯誤4,將錯誤1識別成了錯誤2,仍然認為模型判斷正確。
為了使樣本具有平移和小幅度旋轉的魯棒性,對卷積神經網絡的訓練樣本進行了一些平移和旋轉上的擴展。考慮到手勢與手寫字符的區別,本文并沒有進行彈性形變擴展。整個卷積網絡的結構如圖4所示。
本文參照文獻[15]中提到的方法來設計卷積神經網絡,網絡包含兩個卷積層:第1層用來提取一些類似于邊緣、角點、交線的底層圖像特征;第2個卷積層以這些特征為基礎生成更加復雜的特征。兩個下采樣層均按照2×2的因子進行最大池化,卷積核的大小定為5×5,第1個卷積層有5個卷積核,第2個卷積層有10個卷積核。光柵化之后采用兩層全相連多層感知機結構,隱層單元數量設定為100個,最后針對多分類問題,使用softmax設置10個輸出節點。
2.2卷積神經網絡的計算過程
本文使用的卷積神經網絡主要參照文獻[17]中提到的算法實現。下面主要針對卷積層和下采樣層的正向計算和反向傳播計算進行討論。
2.2.1正向計算
2.2.2反向傳播
3實驗結果分析
實驗平臺為Intel Core i74702MQ 2.2GHz, 4GB RAM, NVIDIA GeForce GTX 760M。CPU支持POPCNT命令,顯卡支持CUDA平臺,操作系統為Windows 8 Pro 64位。
3.1手勢檢測部分
手勢檢測部分所采用的數據集是Sebastien Marcel Static Hand Posture Database數據集,數據集包含10個人的6種手勢(a,b,c,point,five,v)(A,B,C,Point(P),Five(F),V),總共接近5000個樣本(如圖5)。
實驗對簡單環境和復雜環境分別取100張測試圖片進行測試(如圖6)。在實驗中發現,在簡單環境下,直接獲取“窗口值”最大的窗口作為備選區域即可。在光照變化和背景復雜的情況下,“窗口值”大小前4的窗口已經可以覆蓋所有的實際手勢區域,即達到100%的召回率(如表1)。
實驗對比了基于滑動窗口方法實現手勢檢測、多模板匹配外加人臉排除以及本文的手勢檢測方法的運算速度。在3種不同尺寸的樣本中分別取1000張測試圖片進行測試,結果如表2所示。
3.2手勢識別部分
手勢識別部分的樣本來源于手勢檢測部分的結果。數據一共分為10類,除了6個手勢類之外,還設定4個錯誤類。4類錯誤分別命名為E1、E2、E3、E4。其中:E1代表識別到手勢中心;E2代表識別到手勢邊緣;E3代表識別到非手勢干擾區;E4代表除E3之外的弱干擾區,如圖7所示。
因為10類的訓練樣本數量有一定的差異。其中最多的手勢Point有1395個樣本,最少的V有435個樣本。錯誤類樣本中總量為1216個,其中E1 178個,E2 81個,E3 943,E4 14個,這個具體數量與手勢檢測所設定的備選窗口數量有關以及選擇的輸入圖片有關,可以調整,本文實驗中備選窗口數量設為4,輸入圖片中背景復雜的一共有473張。在樣本不平衡的情況下所訓練出卷積神經網絡模型測試準確率為93%左右。對樣本進行抽樣和擴展,擴展方法如下。
1)對于6個手勢類,在每個類的訓練集中隨機抽取350張樣本,對抽取的圖片在隨機方向上進行1到2個像素的平移得到另外350個樣本,每一類總共會得到700個樣本。
2)對于錯誤類E1,首先對訓練集進行4次隨機方向上1到2個像素的平移,每一次都會得到一個新的訓練樣本,最后進行隨機抽樣,每類選擇700個樣本。
3)對于錯誤類E2,首先對訓練集進行10次隨機方向上1到2個像素的平移,每一次都會得到一個新的訓練樣本,最后進行隨機抽樣,每類選擇700個樣本。
4)對于錯誤類E3,直接進行隨機抽樣,每類選擇700個樣本。
5)對于錯誤類E4,將樣本復制50次,獲取700個樣本。
擴展后的訓練集有6000張訓練樣本,測試集有1000個樣本。手勢識別的結果如表3所示,在手勢識別部分修正后的準確率為96.1%,空格部分代表0,4個錯誤類準確率計算方式在2.1節有說明。
圖8對比了本文算法和其他算法的性能,當訓練樣本大于100時,本文算法和特征包算法的準確率相近。算法的運行效率明顯高于特征包(Bag of Features, BoF)算法,如表4所示,平均識別時間表示的是手勢識別算法對單一“窗口”圖像的計算時間,整體計算時間包含了手勢檢測和手勢識別兩個部分以及一些預處理環節,基于特征包的兩類算法對應的手勢檢測方法采用的是對模板匹配和人臉排除,本文的算法是采用位運算支持向量機和CUDA卷積神經網絡。CUDA卷積神經網絡處理29×29大小的圖片用時約為0.001s。手勢識別過程中,因為分割算法求得的是4個備選窗口,所以識別過程中需要識別4個窗口,對一幅輸入圖像而言手勢檢測和識別總用時約為0.013s。
實驗結果表明,本文提出的方法能夠在光照變化、背景復雜的情況下依然保持高準確率和良好的運算效率。
4結語
本文提出了一種新型的手勢識別方法,與傳統的手勢識別方法相比,本文方法利用位運算代替滑動窗口,在數微秒的時間內將備選窗口數量由千萬級別縮減到個位數。獲取備選區域之后使用基于CUDA的卷積神經網絡對備選區域進行細分和識別。在實際的計算過程中可以通過硬件優化得到100至1000倍的加速比。本文方法僅僅通過膚色似然特征就在Marcel數據集上得到了96%左右的準確率。本文提出的方法主要解決了魯棒性和計算復雜度的矛盾,并且方法所使用的特征可以使用其他的特征替換,這使得模型具有良好的可擴展性。
本文方法的局限性主要體現在對特征提取的召回率有要求,如果完全沒辦法提取到特征,本文的方法會失效。另外,卷積神經網絡的訓練耗時長,網絡設計依賴經驗,在更加復雜的分類上,卷積神經網絡網絡的設計也會更加困難。
參考文獻:
[1]
談家譜,徐文勝.基于Kinect的指尖檢測與手勢識別方法[J].計算機應用,2015,35(6):1795-1800.(TAN J P, XU W S. Fingertip detection and gesture recognition method based on Kinect [J]. Journal of Computer Applications, 2015, 35(6): 1795-1800.)
[2]
NEWCOMBE R A, IZADI S, HILLIGES O, et al. KinectFusion: realtime dense surface mapping and tracking [C]// Proceedings of the 2011 IEEE International Symposium on Mixed and Augmented Reality. Washington, DC: IEEE Computer Society, 2011: 127-136.
[3]
譚同德,郭志敏.基于雙目視覺的人手定位與手勢識別系統研究[J].計算機工程與設計,2012,33(1):259-264.(TAN T D, GUO Z M. Research on location and gesture recognition of hand based on binocular stereovision [J]. Computer Engineering and Design, 2012 33(1): 259-264.)
[4]
WACHS J P, KLSCH M, STERN H, et al. Visionbased handgesture applications [J] Communications of the ACM, 2011, 54(2): 60-70.
[5]
SAMUEL D, RATHI Y, A. TANNENBAUM A. A framework for image segmentation using shape models and kernel space shape priors [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2008, 30(8): 1385-1399.
[6]
DARDAS N H, GEORGANAS N D. Realtime hand gesture detection and recognition using bagoffeatures and support vector machine techniques [J]. IEEE Transactions on Instrumentation & Measurement, 2011, 60(11): 3592-3607.
[7]
BELONGIE S, MALIK J, PUZICHA J. Shape matching and object recognition using shape contexts [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2002, 24(4): 509-522.
[8]
CHENG M M, ZHANG Z M, LIN W Y. BING: binarized normed gradients for objectness estimation at 300fps [C]// Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2014: 3286-3293.
[9]
STRIGL, KOFLER K, PODLIPNIG S. Performance and scalability of GPUbased convolutional neural networks [C]// Proceedings of the 2010 18th Euromicro Conference on Parallel, Distributed and Networkbased Processing. Piscataway, NJ: IEEE, 2010: 317-324.
[10]
BOJIC N, PANG K. Adaptive skin segmentation for head and shoulder video sequences [C]// Visual Communications and Image Processing 2000. Bellingham, WA: SPIE, 2000: 704-711.
[11]
KOVAC J, PEER P, SOLINA F. Human skin color clustering for face detection [C]// IEEE Region 8 EUROCON 2003. Computer as a Tool. Piscataway, NJ: IEEE, 2003, 2: 144-148.
[12]
FAN R E, CHANG K W, HSIEH C J, et al. Liblinear: a library for large linear classification [J]. Journal of Machine Learning Research, 2008, 9(12): 1871-1874.
[13]
HARE S, SAFFARI A, TORR P H S. Efficient online structured output learning for keypointbased object tracking [C]// Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2012: 1894-1901.
[14]
ZHENG S, STURGESS P, TORR P H S. Approximate structured output learning for constrained local models with application to realtime facial feature detection and tracking on lowpower devices [C]// Proceedings of the 2013 10th IEEE International Conference and Workshops on Automatic Face and Gesture Recognition. Piscataway, NJ: IEEE, 2013: 1-8.
[15]
SIMARD P Y, STEINKRAUS D, PLATT J C. Best practices for convolutional neural networks applied to visual document analysis [C]// Proceedings of the Seventh International Conference on Document Analysis and Recognition. Washington, DC: IEEE Computer Society, 2003: 958-963.
[16]
LECUN Y, BOSER B, DENKER J S, et al. Handwritten digit recognition with a backpropagation network [M]// Advances in Neural Information Processing Systems 2. San Francisco: Morgan Kaufmann, 1990: 396-404.
關鍵詞:車牌識別系統; 智能交通; 技術
中圖分類號: TP391.4文獻標識碼:A文章編號:1009-3044(2008)18-20ppp-0c
Research on Licence Plate Recognition System
YI Lian-jie
(Loudi Vocational and Technical College Loudi Huanan417000)
Abstract: The licence plate recognition system has an importantrole of morden intelligent traffic system. This paper narrated the key technology ofthe licence plate recognition system and discussed the existing problems and development of the licence plate recognition system.
Keywords: the licence plate recognition system; intelligent traffic system; technology
車牌識別系統是智能交通系統的關鍵部分,可廣泛應用于交通管理、監控和電子收費等場合。車牌識別系統就是以車牌作為車輛的唯一標識,采用計算機視覺和模式識別技術對汽車車牌的自動識別。
1 車牌識別系統的組成
典型的車牌識別系統由車輛檢測、圖像采集、車牌識別等部分組成(圖1)。車輛檢測就是使用車輛傳感器或紅外線檢測等來判斷車輛是否通過某一位置。當車輛駛過探測部位時,CCD攝像機拍攝車輛圖像,由圖像采集卡采集圖像并輸入計算機。車牌識別部分由計算機和識別軟件組成,從由CCD攝像機采集的圖像中自動尋找車牌,然后對找到的車牌進行字符切分和識別,最后獲得車牌號碼,并將識別結果送至監控中心等場合。
圖1車牌識別系統的組成
在整個識別系統中,以車牌識別最為關鍵。識別過程有兩個步驟,首先從圖像中找出確切的車牌位置,即車牌定位,然后對找出的車牌進行字符切分和識別。車牌識別過程包含兩大關鍵技術:1.車牌區域定位技術;2.車牌字符切分和識別技術。
2 車牌定位技術
圖像輸入計算機后,系統要自動找出車牌的準確位置。車牌區域定位是車牌字符切分和識別的基礎,是提高系統識別率的關鍵。車牌定位過程包括三個步驟:圖像預處理、車牌搜索和車牌糾偏。
2.1 圖像預處理
圖像預處理的作用:平滑去噪和車牌特征增強。
平滑去噪就是消除圖像上由于光照、車牌污損等產生的噪聲干擾。平滑方法主要有平均濾波、中值濾波和指數函數濾波等方法。中值濾波和指數濾波平滑效果好且能較好保持牌照和字符邊緣,但在平滑效果和處理速度方面不如平均濾波。
通常的車牌定位算法是依據車牌特征從圖像中找出車牌,因此必須使車牌區域顯示出與非車牌區域不同的獨有的特征,車牌特征增強使圖像中車牌區域明顯突出。通常有下述增強方法:邊緣檢測法、二值化法、量化法、數學形態學法。
具有不同灰度的相鄰區域之間存在邊緣,在車牌區域存在車牌邊框邊緣和車牌字符邊緣。邊緣檢測法就是要檢測出這些邊緣。有關邊緣檢測的算法很多,考慮實時性要求,采用簡單的微分算子,如一階微分算等。這些算子采用小區域模板與圖像卷積實現邊緣檢測。文獻[1]提出一種牌照字符邊緣特征增強的方法,該方法使用線性濾波器函數將每一行中多個連續的水平方向梯度值相加,使得字符的垂直邊緣增強。微分算子對噪聲較為敏感,因此在使用之前需要平滑去噪。LOG算子是高斯指數平滑法與Laplacian算子相結合的邊緣檢測方法,既能消除噪聲又能很好的突出車牌字符的邊緣。
二值化增強法先確定一個閾值,然后將圖像中各個像素的灰度值都與這個閾值比較,根據比較結果將整個圖像的像素點分為兩類,車牌區域歸為一類,便于車牌搜索。為了滿足實時性要求,采用簡單、快速的二值化法,如平均閾值法,反積分自適應閾值法等。
文獻[3]使用神經網絡來對彩色圖像量化,使得車牌區域的字符為一種特定的顏色,然后進行顏色過濾或線掃描,借此提取車牌。該方法首先必須選取車牌樣本圖像,并且要把RGB顏色模式轉換為HSI模式,以HSI各分量值作為輸入對神經網絡進行訓練,再以訓練好的神經網絡對圖像的各像素點量化分類,該方法抗干擾能力強,量化前可不要求平滑,
數學形態學表示以形態為基礎對圖像進行分析的數學工具,它的基本思想使用具有一定形態的結構元素去量度和提取圖像中的對應形狀以達到對圖像分析和識別的目的。數學形態學有四種基本的運算:膨脹,腐蝕,開啟和閉合。出于以下兩個意圖而使用形態學方法:1.將開啟和閉合結合起來,消除二值化后的車牌區域中存在的細小空洞;2.采用水平線段的結構元素膨脹,使二值化后的車牌區域成為一連通區域。
需要說明的是,上述方法往往不是單獨使用,如二值化法是對邊緣檢測后的圖像進行,而形態學方法是在二值化圖上實現。不能簡單的評價圖像預處理方法的優劣,因為這與所對應的車牌搜索方法緊密相關。
2.2 車牌搜索
車牌搜索就是根據車牌區域特征在圖像中尋找車牌的過程。根據搜索的方式可把車牌搜索方法分為以下幾種:投影統計法、線掃描法、模板匹配法和反Hough變換法等。車牌搜索法要與相應的車牌增強法配合使用(見表2)。
表2車牌增強法用于不同搜索法的情況
投影統計法對邊緣化或二值化圖像進行水平和垂直累加投影,根據投影直方圖呈現的連續峰、谷、峰的分布的特征來提取車牌,或對由形態學膨脹運算后的圖像水平和垂直投影,在投影圖上尋找波峰和波谷而確定車牌位置。文獻[24]提出的采用高斯指數函數對投影圖平滑,能有效消除投影圖的毛刺,使車牌位置為明顯的波峰,提高車牌定位的精度。
線掃描搜索法則是對邊緣化或二值化后的圖像逐行水平掃描,穿過車牌區域的掃描線因為字符邊緣的存在,灰度呈現起伏的峰、谷、峰的變化,或頻繁交替出現亮基元、暗基元的特征,以提取車牌。文獻[3]用神經網絡對彩色圖像量化之后,再逐行水平掃描,分別獲取顏色向量和長度向量,能與標準車牌區域的顏色向量和長度向量匹配的為車牌區域。
模板匹配搜索法是以特定的模板在圖像區域滑動,以與模板匹配的局部區域為車牌。使用的模板有線模板、倒”L”角模板、矩形框模板。線模板以水平線段或垂直線段為模板,來檢測車牌的邊框角點;倒“L”模板以倒“L”結構為模板來尋找車牌邊框的左上角;矩形框模板以一個與車牌長寬比例相當的矩形框作為模板,在整個圖像區域滑動,以符合某一判別函數值的區域作為車牌區域。
反Hough變換搜索法是基于車牌形狀特征的方法,先對圖像進行Hough變換,然后在Hough參數空間尋找車牌的四個端點。
上述搜索法可以結合使用,如文獻[25]提出的自適應邊界搜索法,先用倒”L”模板尋找車牌邊框的左上角,然后用水平線掃描和垂直線掃描找出下邊框和右邊框。投影統計搜索法和線掃描搜索法處理速度快,能對大小不同的車牌識別,但定位精度不高和出現虛假車牌的情況,需要提高定位精度和去除虛假車牌的后續工作。模板匹配搜索法能比較準確的找到車牌位置,但難以滿足實時性要求,可以采用神經網絡或遺傳算法來加快搜索進程。反Hough變換搜索法除了能準確找到車牌位置,還能確定車牌的傾斜角度,對噪聲、輪廓線中斷不敏感,但在有直線干擾下可能實效,文獻[28]提出的快速Hough變換的策略能滿足實時性要求。
2.3 車牌糾偏
由于車輛運行軌跡不定、攝像機位置偏斜等原因,使得圖像中車牌扭曲,為了后續正確的車牌字符切分和識別,就須對車牌糾偏,使車牌達到規范的位置和大小。采用的糾偏方法通常先是用Hough變換確定水平邊框傾斜角度和垂直邊框傾斜角度,然后糾偏。文獻[22]提出使用Rodan 變換可用來確定傾斜角度。
3 車牌字符識別技術
車牌定位之后就要對車牌字符識別。這一過程包含下列幾個步驟(見圖2):車牌二值化,字符切分,字符特征提取和字符識別。這里只討論后三個步驟。
圖2 車牌字符識別步驟
3.1 字符切分
字符切分把車牌上的字符分開,得到一個個的字符圖像。常用的字符切分方法有投影法、模板匹配法、區域生長法、聚類分析法等。
投影法把車牌圖像垂直累加投影,形成峰谷交替的投影直方圖,找到投影圖的各個谷就能把字符分開。模板匹配法以字符大小的矩形作為模板,根據字符的寬度初步確定每個字符的起始位置,然后以此模板在初定位置附近滑動,找到最佳匹配位置而切分字符。區域生長法對每個需要分割的字符找一個像素作為生長起點的種子,將種子像素周圍鄰域中與之相同或相近性質的像素合并到種子像素所在的區域,然后將這些新像素當作新的種子繼續進行上述過程,直到再沒有滿足條件的像素可被包含進來。基于聚類分析的方法對車牌圖像從上到下逐行掃描,如屬于字符類的兩像素間距離小于閾值,可認為兩像素為同一字符,由此而得字符像素的聚類。
3.2 字符特征提取和車牌字符識別
目前使用的車牌字符特征提取的方法可歸納為下述三種:1.基于字符統計特征。計算字符圖像的多階原點矩,多階中心矩以及中心慣性矩,以中心矩與中心慣性矩的比值作為字符特征向量,這樣提取的特征量具有平移,旋轉和尺度不變性,但運算量大;也有把字符在多個方向上的投影(如水平方向,垂直方向,右斜方向,左斜方向)和二階中心矩的比值作為特征向量。2.基于結構特征。輪廓特征,粗網格特征,層次輪廓特征以及字符特征點.這類特征提取計算量較少,但對噪聲和位置變化比較敏感,需要去噪和對字符歸一化。3.基于變換。對原始特征(像素點矩陣)進行傅里葉變換、K-L變換或小波變換等,提取的特征向量反映字符的結構特征和統計特征,相似字符的特征矢量距離較大,效果較好。實際應用中往往是多種特征的提取,多種特征提取方法的使用。
對車牌字符特征提取之后,就把相應的特征值輸入分類器識別,目前對于車牌字符的分類識別方法歸納為下列幾種。(1)模板匹配。該方法首先對待識字符進行二值化并將其縮放為字符數據庫中模板大小,然后與所有的字符模板比較匹配,計算相似度,以最大相似度者為識別結果。(2)PCA子空間分類器。子空間分類器由訓練樣本相關矩陣的特征向量構成,單個模式的子空間建立彼此獨立,相互之間沒有聯系,以待識別字符的特征向量與所對應的子空間距離最小作為結果。(3)基于人工神經網絡。人工神經網絡有抗噪聲、容錯、自適應、自學習能力強的特點。多隱含層的BP神經網絡,BAM(Bidirectional association memories)神經網絡方法,自諧振ART神經網絡識別等是此方法的典范。(4)基于邏輯規則推理的識別方法。文獻[18]提出基于歸納推理的字符識別,該方法在訓練時自動生成識別規則。(5)基于隨機場圖像模擬的識別方法。該方法識別率高,并且可對灰度圖像直接提取字符特征,抗干擾性強。另外使用感知器的識別,通常感知器只用于相似字符對的識別,作為其他識別方法的補充。
4 總結與展望
從已有車牌識別系統的性能分析來看,正確識別率和識別速度兩者難以同時兼顧。其中原因包括目前的車牌識別技術還不夠成熟,又受到攝像設備、計算機性能的影響。
現代交通飛速發展,LPR系統的應用范圍不斷擴寬,對車牌識別系統的性能要求將更高。對現有的算法優化或尋找識別精度高、處理速度快、應用于多種場合的算法將是研究的主要任務。
參考文獻:
[1] 廖金周,宣國榮.車輛牌照的自動分割[J].微型電腦應用,1999(7):32-34.
[2] 劉智勇.車牌識別中的圖像提取及分割[J].中文信息文報,2000(3):29-34.
[3] Wu Wei,Mingjun Wang.An Automatic Method of Location for Number_Plate Using Color Features IEEE 2001.
[4] 郭捷,施鵬飛.基于顏色和紋理分析的車牌定位方法[J].中國圖像圖形學報,2002,7(5):473-476.
[5] 章毓晉.圖像工程(上)――圖像處理與分析[M].清華大學出版社.
【關鍵詞】照相軟件 人臉識別技術 計算機
人臉識別作為一項現代化科技技術,具有極大的發展空間。1964年,人臉識別(AFR)這一領域逐漸出現在人們的視野里,至于1991年至1997年,若干具有代表性的人臉識別算法誕生于世,到如今,以支持向量機為代表的統計學習理論被應用到了人臉識別中來。前人的側重點在于對其算法的延伸探究,但就筆者而言,存在一定程度上專業知識的限制,因而根據自身的知識儲備與探究能力,將人臉識別技術這一寬泛概念的探討縮小至相對更貼近生活,且較為容易理解與研究的一個主題――對于照相機軟件中人臉識別技術的探究,并由此展開對計算機人臉識別的部分性探究。
1 對于人臉識別技術的初步了解
科幻性質的故事往往以其并不符合實際的奇幻情節,模糊得描繪了現實世界未來的發展藍圖。這里不得不提及一部具有啟發意義的電影――《生化危機》,電影中追蹤主角行蹤的衛星定位人臉識別技術,是否未來也將存在于我們的現實社會當中?由此,便聯想到生活中照相軟件的人臉識別是否也是通過相似的原理而執行的。
關于人臉識別,其本質上隸屬于生物特征識別的一支。其余包含指紋識別,虹膜識別,DNA識別等技術。當今最為廣泛運用的是指紋識別,但隨之而來產生的是一定的安全性問題。例如去年熱門的高考替考話題,指紋貼的出現使指紋識別的安全性受到質疑。而人臉識別仍處于一個不完全成熟的發展階段,就目前現狀來說,其所具有的不可復制性、自然性、不可察覺性,使其安全性與實用性都處于相對較高的水平。但同樣,其技術難度也呈正比例增長。
通過對與計算機信息科技的學習,能夠得出這樣一個總結性結論:“人臉識別是通過計算機視覺的一些算法所實現的。”
前人對從不斷更新的研究中得出,人臉識別的基本算法有四種:
(1)基于人臉特征點的識別算法(Feature-based recognition algorithms)。
(2)基于整幅人臉圖像的識別算法(Appearance-based recognition algorithms)。
(3)基于模板的識別算法(Template-based recognition algorithms)。
(4)利用神經網絡進行識別的算法(Recognition algorithms using neural network)。
當然,如今也早已存在許多其他的的算法能夠支持人臉識別技術的實現。而對于該項技術的應用的范圍也在逐漸擴大,門禁考勤系統、住宅安全管理、電子身份等等,都將在很大程度上的得益于其的不斷發展。
讓我們回到主題:照相機的人臉跟蹤究竟是如何實現的呢?圍繞這一問題,由淺及深,筆者將本文中的探究內容主要分為以下三個部分:
(1)圖像在計算機內部的存儲方式。
(2)計算機如何區分出物體與其所在背景。
(3)計算機如何定位人臉并從而實現識別功能。(注:由于照相軟件只是作為一個對于人臉識別問題的切入點,單單深究照相軟件會帶來一定的局限性,因此二、三兩點將跳過作為載體的照相軟件,直接對于照相機功能背后的原理作進一步探究。)
1.1 圖像在計算機內部的儲存方式
計算機通過往往通過bitmap的形式來儲存圖像,也就是像素矩陣。
從結構上講,計算機中儲存的圖像一把可以分為兩大類,即矢量圖和位圖。矢量圖通過數學公式計算獲得,優點在于不會失真,但其最大的缺點是難以表現色彩層次豐富的逼真圖像效果。而位圖的基本思想,則是把一幅圖像按照行列進行分割,所獲得的點成為像素。相機所拍攝獲得的照片便是以位圖的形式儲存的。每一幅圖像均是由無數像素組成,而每一個像素對應顯存中1、8、16或24位二進制數來表示顏色信息。位數決定了圖像所含的最大顏色數,位數越多,圖像的色彩就越豐富。
1.2 計算機如何區分出物體與其所在背景
大致的過程可以由圖1所知,用相對容易理解的話來解釋,計算機對于區分物體與其所在背景,首先是通過對要是別的物體提取表面特征,然后再對真實的照片提取表面特征,最終在進行匹配,配合相應的算法,這樣,計算機便可以區分出物體與其所在背景。
由此所延伸的科目是計算機視覺。
正如定義所提到:計算機視覺是一門關于如何運用照相機和計算機來獲取我們所需的,被拍攝對象的數據與信息的學問。
通過這門科目,我們能夠做到使用計算機來處理圖像,并區分出目的對象。形象地說,在這門科目的輔助之下,計算機能夠成為人類的第二雙眼睛,對目標進行識別、跟蹤和測量。
“One picture is worth ten thousand words.”圖像的處理,將為人類提供巨大的便捷。
大致羅列出其處理所進行的步驟,分別是:圖像獲取、特征提取、檢測分割、高級處理。
1.3 計算機如何定位人臉并從而實現識別功能
關于人臉的定位與識別,在很大一定程度上與區別物體與背景的技術存在著相似之處。但是人臉的定位與識別,又是更高于目標對象的識別的。這正是算法的不停更新與發展所帶來的科技發展的結果。
目前比較流行的Cascade Classifier(Opencv中做人臉檢測的時候的一個級聯分類器)效果還是比較好的,正臉檢測到的成功率能達到90%以上。
此外,在人臉局部區域特征提取時,一種叫做CNN(Convolutional Neural Network)卷積神經網絡技術的運用――使用提取特征的filter對像素點進行幾層處理,也為識別帶來一定的便利。CNN運用到了深度學習,因此這里將拓展以下有關deep learning的概念:
deep learning的概念源于人工神經網絡的研究。其三大框架為:CNN(Convolutional Neural Network,卷積神經網絡),DBN(Deep Belief Network,深度置信網絡),AE(AutoEncoder,自動編碼機)。而目前在CV(Computer Vision的縮寫,指計算機視覺)領域應用最廣的是CNN。到近來也有很多人嘗試用deep learning的方法來實現人臉識別,其與先前所提到的計算機區分物體和背景的原理也是相似的。
2 結論
回到最初的問題:照相機的人臉跟蹤是如何實現的?綜上所述,可以獲得的結論是:照相機的人臉跟蹤是通過計算機視覺的一些算法實現的。但這些算法在技術方面人仍然面臨著一些難點,例如,在特征識別時,外界客觀因素,有如,光線、著裝遮擋、目標對象的姿態、臉型、樣本缺乏等等尚未解決的問題。這些都使人臉識別技術尚有巨大的可發展空間。就像前段時間由推出的How Old do I Look線上臉部偵測服務,曾一度掀起熱潮,可見,人們對于人臉識別技術的期望也是很高的。
那么,未來的人臉識別技術到底能夠發展到何種程度呢?香港中文大學教授湯曉鷗、王曉剛及其研究團隊曾在2014年6月宣布,他們研發的DeepID人臉識別技術的準確率超過99%,比肉眼識別更加精準。相信未來,計算機人臉識別技術將與我們共同成長,逐漸成熟與完善。畢業于UC Berkeley的博士賈揚清,創造了Caffe――全稱Convolutional Architecture for Fast Feature Embedding,一個清晰而高效的深度學習框架,具有上手快、速度快、模塊化、開放性、社區好等優點。如此不斷迅捷發展的計算機技術,在這個數字化的時代,正是對未來發展很好的導向。
參考文獻
[1]韋鳳年.怎樣寫科技論文[J].河南水利,2006(09).
[2]董琳,趙懷勛.人臉識別技術的研究現狀與展望[J].China Academic Journal Electronic Publishing House,2011,10.
作者簡介
孫文倩(1998-),上海市人。現在上海市洋涇中學高中在讀。
【關鍵詞】聲紋識別;小波濾波器組;基音周期;Mel倒譜系數;高斯混合模型
1.引言
說話人聲紋識別可以看作是語音識別的一種。它和語音識別一樣,都是通過對所收到的語音信號進行處理,提取相應的特征或建立相應的模型,然后據此作出判斷。而區別在于它并不注意語言信號中的語義內容,而是希望從語音信號中提取出人的特征。從這點上說,說話人聲紋識別是企求挖掘出包含在語音信號中的個性因數,而語音識別是企求從不同人的詞語信號中尋找相同因素。在處理方法上,說話人聲紋識別力圖強調不同人之間的差別,而語音識別則力圖對不同人說話的差別加以歸一化。世界范圍內,聲紋識別技術正廣泛應用于諸多領域。截止到去年年初,聲紋識別產品的市場占有率為15.8%,僅次于指紋識別和掌形識別。
現有文獻中用于說話人識別的特征許多是建立在短時頻譜基礎上。它們主要有Mel頻率倒譜系數(MFCC),LPC倒譜系數,差值倒譜等。在聲紋識別技術中,目前研究最多的方法有:模板匹配法、概率模型法和人工神經網絡法。Soong等人將矢量量化技術用于與文本無關的說話人是被系統。Rosenberg等人利用子詞單元構成的隱馬爾科夫模型(HMM),建立了一個說話人確認系統。Delesby等人利用徑向基函數神經網絡方法進行說話人識別[1]。我國的北京大學以遲惠生為領導的說話人識別研究團體、清華大學以楊行峻為領導的研究團體以及中國科學院聲學所和東南大學也在這個方面取得了非常優秀的科研成果.從國內外文獻看來,有的著重距離測度,但是大多數向幾種方法如HMM、GMM和ANN混合的方向發展。
2.聲紋識別的基本原理及相關算法
2.1 基本原理
聲紋識別的基本原理如圖1所示,主要包括兩個階段,即訓練和識別階段。
訓練階段,系統的每個使用者說出若干訓練語句,系統據此建立每個使用者的模板或模型參數。識別階段,由待識人說的語音經特征提取后與系統訓練時產生的模板或模型參數進行比較。在主說話人的辨認中,取與測試音匹配距離最小的說話人模型所對應的說話人作為識別結果;在說話人確認中,則通過判斷測試音與所聲稱的說話人的模型的匹配距離是否小于一定閉值做出判斷。
2.2 語音信號的預處理
在語音信號特征提取之前,首先要進行的一個環節就是對輸入語音信號的預處理,主要包括預濾波、預加重、加窗分幀以及語音端點檢測等過程。本文就以涉及到的預濾波進行描述,預濾波在本文中是通過小波濾波器組來實現。預濾波器必須是一個帶通濾波器,其上、下截止頻率分別是和。對于絕大多數語音處理中,,,采樣率為。
2.3 聲紋特征提取
2.3.1 概述
提取說話人特征就是把原來語音中的冗余信息去掉,找到我們關注的語音特征信息,是一個減小數據量的過程。從說話人語音信號中提取的特征參數應滿足以下準則:對外部條件具有魯棒性(如:說話人的健康狀況和情緒,方言和別人模仿等);能夠長期地保持穩定;易于從語音信號中進行提取;與其他特征不相關。
2.3.2 典型聲紋特征參數提取算法
聲紋特征參數主要有以下幾種:基音周期、短時過零率、線性預測(LPC)、線性預測倒譜系數(LPCC)、Mel頻率倒譜系數(MFCC)、以及經過噪聲譜減或者信道譜減的去噪倒譜系數等,每一種特征參數都有其相應的提取算法。在聲紋特征提取這一點,本文將采用基音周期和Mel頻率倒譜混合的參數作為特征參數。
2.3.2.1 線性預測(LPC)方法
語音線性預測的基本思想是:利用過去的樣值對新樣值進行預測,然后將樣值的實際值與其預測值相減得到一個誤差信號,顯然誤差信號的動態范圍遠小于原始語音信號的動態范圍,對誤差信號進行量化編碼而達到最小,可以確定唯一的一組線性預測系數。目前主流算法有Durbin遞推算法、Levinson遞推算法、舒爾(schur)算法和個性算法[2][3]。由于LPC分析是基于全極點模型的假設,所以它對于聲道響應含有零點的清音和濁音和鼻音描述不確切。
2.3.2.2 線性預測倒譜系數(LPCC)
倒譜特征是用于說話人個性特征和說話識別人識別的最有效的特征之一。語音信號是聲道頻率特性和激勵源信號源兩者共同卷積的結果,后者對于某幀而言常帶有一定的隨機性,而說話人的個性特征很大程度上取決于說話人的發音聲道,因此要將此二者進行有效的分離,可以通過對信號做適當的同態濾波,將相卷積的兩個部分分離。濾波的關鍵是先將卷積處理化為乘積,然后做對數處理,使之化為可分離的相加成分。線性預測倒譜系數可由LPC特征進行推導,基于LPC系數分析得倒譜存在一種非常簡單有效的遞推求解方法。LPCC參數比較徹底地去掉了語音產生過程中的激勵信息,主要反映聲道特性,只需要十幾個倒譜系數能比較好的描述語音的共振特性,計算量小,其缺點是對輔音的描述能力較差,抗噪聲性能也較弱。
2.3.2.3 梅爾倒譜系數(MFCC)
MFCC著眼于人耳的聽覺感知機理。因為聽到的聲音的高低與聲音的頻率的并不成線性正比關系,Mel頻率的尺度更符合人耳的聽覺特性。用Mel濾波器組對語音信號進行濾波和加權,使語音信號更加接近于人耳聽覺感知系統特性,MFCC特征成為目前說話人識別和語音識別中最為廣泛的特征參數。根據倒譜計算過程,MFCC計算過程可以簡單地描為如下四個步驟:
(1)對語音信號進行短時傅里葉變換,得到各個幀的頻譜。
(2)在Mel頻率的軸上配置L個通道的三角濾波器組,L的個數由信號的救治頻定。每一個三角濾波器中心頻率c(l)在MEL頻率軸上等間隔分配。設o(l)、h(l)分別是第L個三角濾波器的下限、中心和上限頻率,則相鄰三角形濾波器的下限、中心和上限頻率有如下關系成立:
2.3.2.4 基因周期系數
基音是指發濁音時聲帶振動引起的周期性,而基音周期是指聲帶振動頻率的倒數,基音可以分為時域、頻域以及綜合利用信號時域頻率特性等三種提取模式,時域包括利用語音信號的采樣點計算信號的波峰、波谷和過零率等,典型的方法是Gold和Rabiner提出的并行處理方式;頻域的方法主要是計算信號的自相關函數、功率譜和最大似然函數等,其精度要高于時域方法,典型的方法是有中央消波自相關法、平均幅度差分函數法和倒譜法等。本文章選用倒譜法進行基因周期的提取。
1)倒譜法原理
語音信號是激勵源與聲道相應相卷積的結果,而“倒譜特征”則是利用了對語音信號進行適當的同態濾波后,可將激勵信號與聲道信號加以分離的原理。倒譜中維數較低的分量對應于語音信號的聲道分量,倒譜中維數較高的分量對應于語音信號的音源激勵信號。因此,利用語音信號倒譜可將它們分離,彼此基本上互不干擾,并可以避免聲道分量受到隨機變化的音源激勵分量的干擾。
可見,倒譜域中基音信息與聲道信息可認為相對分離的。采取簡單的倒譜法可以分離并恢復e(n)和v(n),根據激勵e(n)及倒譜的特征可以求出基音周期。然而,反應基音信息的倒譜峰在含過渡音和噪語音中將會變得不清晰甚至完全消失。原因主要是因為過渡音中周期激勵信號能量降低和類噪激勵信號干擾或含噪語音中的噪聲干擾所致。這里可以采用一個簡單的方法,就是在倒譜分析中,直接將傅里葉變換之前的(IFT)頻域信號(由原始作FT逆變換再取對數后得到)的高頻分量置零。可以實現類似于低通濾波器的處理,濾去噪音和激勵源中的高頻分量,減少了噪聲干擾。圖2是一種改進的倒譜基音檢測的算法框圖。
2.4 聲紋識別技術
2.4.1 概述
聲紋識別的基本原理是為了每個說話人建立一個能夠描述這一說話人特征的模型,以其作為這一說話人的個性特征。在目前的話音特征與說話人個性特征還未很好的從語音特征中得到分離情況下,為每個說話者建立的說話人模型實際上是說話人的語音特征得模型。為對說話人個性特征描述的一致起見,構造一個通用的模型,常將每個說話人的模型結構取得相同,不同的只是模型中的參數,通過用訓練語音對模型進訓練得到。
2.4.2 典型的聲紋識別算法
目前說話人識別模型主要有DTW(動態時間規劃),VQ(矢量量化),GMM(高斯混合模型),HMM(隱馬爾科夫模型),NN(神經元網絡),SVM(支持向量機)等。本文用到GMM(高斯混合模型),所以后面會對其算法進行了詳細的描述。
2.4.2.1 動態時間規劃(DTW)
說話人信息既有穩定因素(發聲器官的結構和發聲習慣),也有時變因素(語速、語調、重音和韻律)。將模式識別與參考模板進行時間對比,按照某種距離測定得出兩模板間的相似程度。常用方法是基于最近鄰原則的動態時間規劃DTW,但DTW只對孤立詞識別性能較好,并且高度依賴于定時,目前應用不廣。
2.4.2.2 矢量量化方法(VQ)
矢量量化是一種極其重要的信號壓縮方法,它廣泛應用于語音編碼、語音識別與合成、說話人識別、圖像壓縮等領域,基于非參數模型的VQ的方法是目前自動話說人識別的主要方法之一。完成VQ說話人識別系統有兩個步驟:(1)利用說話人的訓練語音,建立參考模型碼本。(2)對待識別說話者的語音的每一幀和碼本之間進行匹配。由于VQ碼本保存了說話人個性特征,這樣我們就可以利用VQ法進行說話人識別。在VQ法中模型匹配不依賴于參數的時間順序,因此匹配過程中無需采用DTW技術;而且這種方法比應用DTW方法的參考模型儲量小,即碼本碼字小。
用矢量量化方法建立識別模型,既可以大大減少數據存儲量,又可以避開困難語音分段問題和時間規整問題。但是每個說話人的碼本只是描述了這一說話人的語音特征在特征空間中的聚類中心的統計分布情況。在訓練階段為了充分反映說話人的個性特征要求訓練語音足夠長;在識別時為了使測試語音的特征矢量在特征空間中的分布能夠與相應的說話人碼本相吻合,所以同樣要求有足夠長的測試語音,在測試語音很短的情況下,這種方法的識別率將會急劇下降。
2.4.2.3 隱馬爾科夫模型
HMM模型是馬爾科夫鏈的推廣,隱馬爾科夫模型是一種基于轉移概率和傳輸概率的隨機模型。它把語音看成由可觀察到的符號序列組成的隨機過程,符號序列則是發聲系統序列的輸出。在HMM中,觀察到的事件與狀態通過一組概率分布相聯系,是一個雙重隨機過程,其中一個是Markov鏈,他它描述了狀態之間的轉移;另一個隨機過程描述狀態和觀察值之間的統計響應關系。HMM模型的狀態是隱含的,可以觀察到的的是狀態產生的觀察值,因此稱為隱馬爾科夫模型(HMM)。HMM模型同樣廣泛用于與文本相關的說話人識別中,并且比傳統的方法有著更好的性能。HMM不需要時間規整,可節約判決時計算時間和存儲量,在目前被廣泛應用。缺點是訓練時計算量大。
2.4.2.4 基于支持向量機(SVM)的方法
SVM是Vapnik提出的一種基于結構風險最小化二元分類器,通過非線性變換將原始集合映射到高維空間,轉化為某個高維中的線性問題,尋找最優分類面,具有很好的泛化和分類能力,在手寫/文字識別、文本分類和人臉識別等模式領域中取到成功的應用[4]。SVM實際上是一種辨別模式,一般情況下它只能辨別兩類數據,因此需要正反兩類數據進行訓練。因此SVM要在說話人識別中應用,必須要解決多類分類問題。解決說話人識別的多分類問題的主要有三種形式[4]:
1)為每個人建立一個SVM,訓練數據由目標說話人和背景說話人的語音分別構成“+”、“??﹣”數。
2)為每一對說話人建立一個SVM,由N個人則建立N*(N-1)/2個SVM。
3)決策樹分類:決策樹上每個節點將多個說話人分為兩個子集,或者是一個說話人(葉節點)。
關鍵詞: 圖像特征; 支持向量機; 模擬退火算法; 交通標志識別
中圖分類號: TN911?34; TP391.41 文獻標識碼: A 文章編號: 1004?373X(2017)08?0097?03
Traffic sign recognition based on image feature and improved support
vector machine algorithm
HAO Yongjie1, ZHOU Bowen2
(1. Hohhot Vocational College, Hohhot 010051, China; 2. College of Management and Economics, Tianjin University, Tianjin 300072, China)
Abstract: A traffic sign recognition method based on image feature and improved support vector machine (SVM) algorithm is studied in this paper. The color feature and shape feature are used to extract the image feature of the traffic sign. The Gabor filtering method is adopted to perform the enhancement processing of the traffic sign image. Since the accuracy of the recognition algorithm based on SVM is affected by the basic parameters to a great extent, and the parameters are selected according to the experience usually, the simulated annealing algorithm is used to select the parameters of the support vector machine optimally. The research results show that the detection accuracy of the traffic sign detection method is higher than that of the other three methods, and the detection accuracy of color and shape features extraction method is higher than that of the single color feature extraction method or shape feature extraction method.
Keywords: image feature; SVM; simulated annealing algorithm; traffic sign recognition
交通安全題以及道路通信能力不足問題越來越嚴重,人們開始重視如何提升道路交通的安全性及有效性,車輛安全輔助駕駛能夠將道路信息、車輛信息以及駕駛員信息聯系起來,駕駛員在其輔助下能夠對行車環境進行感知,進而達到識別和監測道路信息的目的[1?2]。作為高級輔助系統的重要部分,交通標志識別系統能夠有效地提升駕車的舒適性以及安全性。利用該系統,能夠采集自然場景圖像,經過圖像識別和處理以后就可以檢測交通標志,進而及時警告、指示以及提醒駕駛員[3?4]。
1 基于圖像特征的交通標志檢測特征提取
1.1 基于顏色的交通標志特征
不同的交通標志在顏色上存在著較大的差距,因此在分割交通標志圖像的過程中通常以顏色為基礎來分離抽取交通標志[5?6]。色調V、飽和度S以及色度H三個分量組成了HSV 顏色空間,作為三原色RGB空間的一種非線性變換,HSV顏色空間模型和圓柱坐標系的一個圓錐形子集是相互對應的,實現RGB顏色空間和HSV空間之間的轉換[7]如下:
(1)
(2)
(3)
1.2 基于形狀的交通標志特征
利用顏色抽取的方法能夠在實景圖中提取交通標志區域。然而由于在背景上自然場景和交通標志均比較復雜,如果僅僅依靠顏色無法獲得較為精確的判定結果。但是這種方法能夠將那些顏色比較類似的背景排除掉,主要是因為這些復雜背景和交通標志的特殊形狀存在著一定的差距[8]。矩形、三角形以及圓形為交通標志的三種主要類型,當交通標志不同時其屬性也存在著一定的差距,例如執行到邊緣的距離、伸長度、矩形度以及圓形度等。圓形度、矩形度以及伸長度計算方法如下[9]:
(4)
(5)
(6)
1.3 Gabor濾波
Gabor 濾波首先對核函數模板進行確定,然后對圖像進行卷積操作。Gabor 濾波函數乘以復指數振蕩函數就是所對應的沖激響應。本文在提取特征向量時采用Gabor濾波法,所對應的核函數[10]如下:
(7)
2 改進支持向量機模型
相比于神經網絡,支持向量機不需要太多的訓練樣本,同時對于凸優化問題支持向量機能夠有效的解決,當參數和樣本一致時,訓練模型所得到的預測值就不會產生變化,因此在實際應用和理論中都比神經網絡模型具有更高的性能。
但是在應用的過程中支持向量機需要依靠經驗對學習參數進行選取。比如懲罰因子C和ε等,支持向量機的精度在很大程度上受到這些參數的影響,通常根據經驗來進行參數的選取,這對于支持向量機模型的使用和推廣是不利的。因此本文使用模擬退火算法對支持向量機的參數進行優化選擇。
支持向量機的思想是利用結構風險最小化思想以及構造損失函數的思想,以統計學理論為基礎,通過極小化目標函數就可以對回歸函數進行確定,如下[11]:
(8)
將上述問題轉化為對偶問題:
(9)
解出上述問題即為支持向量機的回歸函數:
(10)
作為一種隨機尋優算法,模擬退火算法是以蒙特卡羅迭代求解策略為基礎的,其基本原理和物理上的金屬退火比較類似。使用模擬退火算法對支持向量機的參數進行優化選擇,主要過程如下:
步驟1:初始化參數。設定支持向量機中的ε,C和σ參數的初始范圍。
步驟2:使用模擬退火算法對支持向量機的參數進行優化選擇。
步驟3:更新最優解。如果,則使,,;否則使。
步驟4:抽樣穩定性判別。如果,則使,并返回步驟2;否則使。
步驟5:終止退火判別。如果,則使,否則使。如果,則終止退火算法,否則繼續向下進行。
步驟6:退火方案。如果,則按照方式進行退火;否則按照方式進行退火。
在利用SA對SVM參數進行確定的過程中能夠記憶性地進行參數的選取,可以存儲當前進化所得到的最優參數,保證可以根據記憶調整參數的選擇過程;同時利用SA算法能夠調整所選取的參數,避免出現局部最小的情況,對于逼近系統的精度以及參數選擇學習速度的提升有非常好的效果[12]。
3 交通標志識別實例分析
通過交通標志識別實例對本文研究的識別方法進行驗證分析。通^實地考察,拍攝了500幅包括826個交通標志的圖像,用于實例分析,部分標志圖像如圖1所示。
本文以文獻[13]中研究的圖像特征檢測方法為例進行對比分析。使用本文研究的圖像特征檢測方法得到的圖像處理結果和使用文獻[13]中研究的圖像特征檢測方法得到的圖像處理結果如圖2所示。
對比本文和文獻[13]中的特征檢測方法可以看出,本文研究的方法處理后圖像中雜點更少,更利于圖像的分類識別。另外,由于文獻[13]中的特征檢測方法使用計算圖像均值處理,因此特征檢測效率相對更低。
下面對交通標志識別準確率進行分析。使用多種圖像特征檢測方法和圖像分類模型進行組合:本文研究的使用顏色和形狀特征提取,改進支持向量機進行圖像分類,稱方法A;使用顏色和形狀特征提取,常規支持向量機進行圖像分類,稱方法B;使用顏色特征提取,改進支持向量機進行圖像分類,稱方法C;使用形狀特征提取,改進支持向量機進行圖像分類[14],稱方法D。
使用上述四種方法針對拍攝的826個交通標志的圖像進行識別,對比結果如表1所示。
表1 四種算法的識別結果對比
可以看出使用本文研究的交通標志檢測方法的檢測精度高于其他三種方法。使用顏色和形狀特征提取的檢測精度要高于單獨使用顏色或形狀特征提取方法。
4 結 論
交通標志識別系統能夠有效地提升駕車的舒適性以及安全性。交通標志識別系統能夠采集自然場景圖像,經過圖像識別和處理以后就可以檢測交通標志,進而及時警告、指示以及提醒駕駛員。本文研究一種基于顏色和形狀特征以及改進支持向量機算法的交通標志識別方法,并通過實例對所研究的交通標志識別方法的可行性進行了驗證。
參考文獻
[1] 王剛毅.交通標志檢測與分類算法研究[D].哈爾濱:哈爾濱工業大學,2013.
[2] 宋婀娜,房俊杰,李娜,等.一種基于局部特征的交通標志檢測算法的研究[J].現代電子技術,2015,38(13):114?116.
[3] 楊正帥.基于視覺的道路識別技術在移動機器人導航中的應用研究[D].南京:南京理工大學,2007.
[4] 王忠.基于視覺的道路識別技術在智能小車導航中的應用研究[D].南京:東南大學,2006.
[5] 陳樸.模擬退火支持向量機算法研究及在電力負荷預測中的應用[D].哈爾濱:哈爾濱工業大學,2006.
[6] 陳亦欣,葉鋒,肖鋒,等.基于HSV空間和形狀特征的交通標志檢測識別研究[J].江漢大學學報(自然科學版),2016(2):119?125.
[7] 王洋.一種基于模板匹配的交通標志識別方法[D].長春:吉林大學,2013.
[8] 盧艷君.交通標志自動檢測與識別算法研究[D].武漢:武漢科技大學,2015.
[9] 鮑朝前.針對圓形和三角形交通標志的檢測與識別[D].北京:北京工業大學,2015.
[10] 周欣.圓形和三角形交通標志分割與識別算法研究[D].上海:華東理工大學,2013.
[11] 李瑾,劉金朋,王建軍.采用支持向量機和模擬退火算法的中長期負荷預測方法[J].中國電機工程學報,2011(16):63?66.
[12] 張震,徐子怡,袁淑芳.基于支持向量機和模擬退火算法對供暖熱負荷的預測方法[J].自動化技術與應用,2016(2):10?14.