前言:想要寫出一篇令人眼前一亮的文章嗎?我們特意為您整理了5篇模式識別技術范文,相信會為您的寫作帶來幫助,發現更多的寫作思路和靈感。
1 決策樹構造原理
1.1 拆分規則
對于決策樹的構造來說,拆分規則是用來確定每個節點上應該使用哪個變量,而確定哪些變量的組合把樣本分成若干子群同樣屬于拆分規則的作用。在拆分規則的具體應用中,我們首先需要確定對變量取什么閥值,這一閥值的獲取需要首先進行各拆分的設定,圖1為簡單的分類樹樣圖,結合該圖我們不難發現,該圖對的閥值為(a,b,c,d),而(x1、x2、x3、x4)是其各特征變量,而由此給分類樹得以實現(w1、w2、w3)的不同類劃分。值得注意的是對于閥值獲取中的各拆分設定來說,我們需要將x∈Rp這一向量包括在坐標條件上[1]。
結合這一分類樹樣圖,我們就需要應用L{(xiyi),i=1,...,n}這一帶有標簽的訓練集進行分類樹的具體構建,而在這一構建的分類樹中,x1與y1分別為數據樣本與相應的類別標簽。令N(t)為L中xi∈u(t)的樣本數,Nj(t)為xi∈u(t)且yi=?棕j(?撞jNj(t)=N(t))的樣本數,定義p(t)=■為p(x∈u(t))基于L的估計;p(?棕j|t)=■為P(y=?棕j|x∈u(t))基于L的估計[2]。
結合上文內容,我們可以就u(t)這一節點t上的上子空間進行拆分,而為了較好保證這一拆分的品質,我們就需要對反映不純度函數的變化進行度量,這一度量過程需要實現不純度函數最大化下降,而這一最大化下降的實現就需要得到?祝(sp,t)?艿?祝(t)-(?祝(tL)pL+?祝(tR)pL)的支持,而這本身就屬于所有拆分sp的選擇。結合?祝(sp,t)?艿?祝(t)-(?祝(tL)pL+?祝(tR)pL),我們需要應用吉尼不純度準則,這樣才能夠順利實現對多種形式?祝(t)的針對,?祝(t)=■p(?棕i|t)p(?棕j|t)就是這一吉尼不純度準則應用的結果。應用這一吉尼不純度準則結果進行CART的訓練,我們就能夠組成單個變量閥值,即sp={x,xk?燮b},這其中的k=(1,...,p),b則在實數范圍取值。考慮到要考察拆分數量的限制必要,我們需要限制b只能取一個有限值,而為了避免過量計算,在具體的分類樹節點拆分中,我們需要應用剪枝算法結束這種節點拆分。
1.2 剪枝算法
所謂剪枝算法,其本身首先需要形成1棵終止節點具有純的類別成員的樹,這樣才能夠具體進行剪枝算法的應用。在具體的剪枝算法應用中,我們首先需要進行R(t)的定義,這一定義需要將R(t)定義為給定樹T每個節點t相關節的實數。若t為終止節點,t∈■,M(t)為u(t)中不屬于與該終止節點相關類別的樣本數,而n則為數據點總數。對于實數?琢來說,令R?琢(t)=R(t)+?琢,規定R(t)=■R(t),R?琢(T)=■R?琢(t)=R(t)+?琢。分類中,R(t)是估計錯分率,■為表示集合■的基數,?琢為常數,R?琢(t)為分類樹的估計錯分率復雜度[3]。
在具體的CART剪枝算法應用中,我們就可以令R(t)=r(t)p(t),這里的r(t)本身指的是錯分概率的重新替代估計,而結合樣本r(t)=1-■p(?棕j|t),o定落入節點t就能夠得到較好支持。如果這里的t本身為終止節點,那么R(t)便是指代該節點對總錯誤的影響。這里我們將Tt用于便是子樹,我們就可以對子樹與節點t對復雜度代價的影響進行深入分析,結合公式?琢=■,以及最后定義的g(t)=
■,筆者提出了圖2所示的原始樹舉例。值得注意的是,g(t)=■公式為t連接強度的測度。
結合圖2所示的原始樹,我們可以通過不斷進行子樹具有最小g(t)值節點的尋找,最后較好發現跟節點,這樣我們就可以應用Tk表示第k步得到的樹,也能夠通過R(Tk)表示最小的子樹。
2 智能系統框架設計
(1)目標獲取:對于智能系統框架設計中的目標獲取環節來說,這一環節需要應用雷達等設備獲取具體的目標電子特征信號,這樣才能夠為后續的智能系統框架設計提供有力支持。(2)目標轉換:在獲取目標電子特征信號的頻率、脈沖重復周期和脈沖寬度后,我們就需要對獲取的這類信息進行目標轉換,這一目標轉化也可以被稱為原始信號的預處理。在具體的目標轉換過程中,我們需要將目標電子特征信號的頻率、脈沖重復周期和脈沖寬度進行放大、整形、濾波以及A/D轉換。(3)轉換后數字信號的處理:在將目標電子特征信號的相關組成進行放大、整形、濾波以及A/D轉換后,我們就可以將轉換取得的數字信號送入PC中,結合上文研究中設計好的分類樹模塊進行具體的分類運算,轉換取得的數字信號由此實現智能分類。(4)信號傳輸:在完成通過終端顯示結果后,我們還需要對取得的結果進行信號傳輸,這一信號傳輸主要是通過網絡化手段實現戰場前沿信息與后方的實時共享,這對于我軍戰斗力的提升將帶來較為積極的影響。
3 結束語
在本文基于模式識別與智能系統技術的發射器類型識別方法展開的研究中,筆者詳細論述了決策樹構造原理、智能系統框架設計,而結合這一系列論述我們就能夠較為深入地了解利用分類樹原理的發射器類型識別的方法,而這種方法具備的清楚鑒別與每個雷達相關的特征空間區域特征,也使得其本身能夠較好服務于我軍戰斗力的提升。
參考文獻
[1]廖雯竹,潘爾順,王瑩,等.統計模式識別和自回歸滑動平均模型在設備剩余壽命預測中的應用[J].上海交通大學學報,2011(7):1000-1005.
關鍵詞:對齊;未登錄詞識別;構詞模式;詞性;分詞碎片
中圖分類號:G353.1
基于二維圖像上兩個物體的不同空間位置關系特征與描述語句中的詞匯進行對齊,具體來說是要在描述語句中提取兩個范疇的詞匯,形狀和方位詞,再把這兩個范疇的詞與圖像的底層特征進行對應。人工標注語料經過切分后會產生許多“分詞碎片”,這是因為描述詞的多樣化,如何從“分詞碎片”中將豐富的未登錄方位描述詞和形狀描述詞識別出來,是本文研究的重點。
1 數據準備
本文的語料庫是由兩部分組成:人工標注語料和圖像語料。
圖像語料是系統自動生成的1000幅圖片,圖片上有兩個基本圖形,用不同的灰度值進行區分,兩個物體的位置不相交,有一定的方位關系。如圖1所示:
圖1 圖像語料示例
標注語料是對每幅圖片的人工標注,本文采用了開放的不限定維度的語言對圖像進行了人工標注。對600幅圖像的標注經過切分、詞性標注并去掉表示句式的詞后的結果如下所示:
0000/m 三角形/n 正/d 五邊形/n 左邊/f
2 基于構詞模式自動識別未登錄描述詞的方法
2.1 標注預處理:先將描述語句進行一次切分,然后標注詞性,因為本方法對于詞性標注的準確性有很高的要求,所以這里選用了中科院研究的分詞工具ICTCLAS進行切分,經檢測此切分和詞性標注工具準確率達到98.5%,然后將表示句式的詞去掉,因為這些詞只是為了表達句式特點。
2.2 模式初選:因為不同的人有不同描述習慣,為了使模式覆蓋面更廣泛,在600條語句中,從每100條中抽取10條,總結這60條描述語句中“分詞碎片”的詞性的構詞模式,構成構詞模式的初選集。
2.3 模式識別[1]:根據初選集中的模式去識別剩下語料中的“分詞碎片”,在識別的同時,統計出每種模式可以識別出的詞語數目。識別時,如果連續的“分詞碎片”中滿足初選集中的一種或幾種模式,以滿足的最長模式為最后結果。例如:左方/f偏/d上/f一點/m,既滿足模式fd,又滿足模式fdfm,選擇fdfm即詞語為左方偏上一點為結果。
2.4 模式篩選:去掉一些識別出詞語比較少的模式,因為這些模式往往只是某個分詞碎片組成的特例,不能稱之為一個模式。
2.5 用篩選后的模式,對測試集中的“分詞碎片”進行識別:篩選后的模式就是可用于對“分詞碎片”進行識別的模式。
3 實驗結果
實驗中從60條語句中總結出的“分詞碎片”的詞性成詞模式共18種如下所示:
"mq","fd","ff","fvf","df","fdfm","dn","dfdfm","fn","ffn","fdam","ffnn","nn","nfv","bnf","fda","vf","mnn"
實驗準備的測試集為200條分詞碎片語料,用這幾種模式去識別這200條測試集中的語料,實驗結果如表1所示:
表1 實驗結果
構詞模式 mq fd ff fvf df fdfm dn dfdfm
出現頻次 31 39 40 0 25 9 116 2
構詞模式 fn fdam ffnn nn fda vf mnn
出現頻次 0 9 0 0 1 0 1
據統計,該方法識別出的詞語的正確率為97.5%,召回率為94.7%。
4 結束語
本文介紹了一種基于構詞模式的自動識別未登錄描述詞的方法,并提出把該方法用于特征-描述詞的對齊中,極大地增強了對齊語料中的詞語豐富性。
附錄
計算所漢語詞性標記集
Version 5.0
制訂人:劉群 張華平 張浩
n 名詞;t 時間詞;s 處所詞;f 方位詞;v 動詞;a 形容詞;b 區別詞;
z 狀態詞;r 代詞;m 數詞;q 量詞;d 副詞;p 介詞;c 連詞;u 助詞;
e 嘆詞;y 語氣詞;o 擬聲詞;h 前綴;k 后綴;w 標點符號;
參考文獻:
[1]Richard O.模式分類[M].北京:機械工業出版社,2005.
作者簡介:王玉凡(1972-),女,河北人,碩士,講師,研究方向:信息處理。
一、引 言
漢語是我國的語言,其中官方通用語言為普通話,學習漢語主要是通過老師上課教、學生課后根據書本上的漢語拼音學習的方式進行。這種方法對教師的依賴性過大,雖然教師通過普通話測試,但是仍然有一部分教師存在口音問題,同時這種學習方式對學生的普通話發音沒有辦法進行嚴格的評判。隨著計算機多媒體技術的發展,可以使用計算機通過評測系統進行計算機輔助語言學習。而目前漢語普通話測試主要也是基于計算機輔助語言學習(computer assisted language learning ,簡稱call)[1]進行的。本文從這個角度出發,首先獲取模型設計的基頻數據,設計并實現k-gmm模型,并初步分析這一技術應用于計算機輔助語言學習中的價值。
二、基于k-gmm模型的
一種漢語聲調識別技術
漢語是聲調語言,其單音節的聲調模式共有五種,分別為陰平、陽平、上聲、去聲和輕聲,[2]本文主要針對前四種聲調進行分析。漢語最重要的信息是通過聲調的基頻保持的,它是提高語音生動性的重要因素。因此聲調識別在漢語識別中十分關鍵,必須選用準確有效的方式方法提取基頻,并對其進行必要的處理。必要的處理手段主要有插值平滑處理、重采樣處理以及歸一化處理。[3]通過這些必要的處理后,再通過建立一個識別模型才能夠實現聲調的識別。識別模型的好壞在一定程度上決定了識別率的高低,因此本文為了實現非特定人聲調識別而建立了k-gmm模型。
(一)基頻提取算法原理
為了保證提取基頻的準確性,同時又要滿足算法的復雜度較低以及算法的計算量小的要求,可選擇自相關算法提取基頻,并對基頻數據進行后處理,得到一個較好的基頻數據輸入模型。算法框圖如圖1所示。
假定隨時間的變化語音信號的特性變化緩慢,因此可以將信號分割成一些短段(分幀)再加以處理,這些短段可以看作是來自一個持續聲音片斷,這個持續聲音片段具有固定特性。算法中就是將語音信號看作是短時平穩過程,對其短段進行語音信號處理的。
圖1 基頻提取算法框圖本文由收集整理
1. 語音信號的預處理
通過對語音的研究表明:[4]成年男性、成年女性基頻范圍分別在70~250hz、160~400hz,而兒童的基頻范圍最高可達500hz。因此選用60~900hz的帶通濾波器對語音信號進行濾波,完成預處理,這樣可以剔除一部分非語音音頻的基頻數據。
2. 自相關計算
使用信號{x(n)}的短時自相關函數計算,獲取基頻數據,如公式(1)所示。
rn(k)=x(m)·x(m+k)·hk(n-m) (1)
其中:hk(n-m)=w(n)·w(n-k)
rn(k)就是自相關計算所得的基頻結果,它是信號在第n個樣本附近截取的一段信號。
3. 插值平滑
通過自相關計算得到的基頻,存在數據丟失的情況,這主要是因為一些濁音部分的基頻為0,導致基頻序列不連續。針對這一情況需要進行丟失數據的處理。通常可采用插值平滑的方式進行。這里采用基于拉格朗日(lagrange插值)插值的插值平滑處理,如公式(2)所示。
pn(x)=lk(x)yk=j ≠ 0 (2)
根據實際應用模型可知,每個漢字的基頻曲線應該是平滑的,字與字之間的基頻過渡也應該是平滑的。基于這種思想,結合普通話語音的特點,選取lagrange插值平滑處理中的值為3。使用lagrange插值法選取已知點時,選擇四個點,斷點前后各兩個點,其中在斷點前要分別選擇一個最靠近的已知點和一個與該斷點有一定距離的已知點。在斷點后也以相同的方法選取已知點,注意選取距離一般不超過10。
采用自相關計算提取的基頻,選取n值為3的lagrange插值進行平滑處理后,如圖2所示。通過分析,可以看出平滑后的基頻曲線效果較好。
4. 重采樣處理
為了便于建立識別模型,必須保證每個字或詞的特征數相同,因此需要對數據進行重采樣處理。重采樣的基本步驟如下:
(a)平滑處理前
(b)平滑處理后
圖2 插值平滑處理前后對比
假設特征維數設定為m維,對應在[0,1]上的點間隔1/(m-1)。再假定在二維坐標系中取n個點,用于對應提取某個字的n個基頻數據,二維坐標系中縱坐標為該點對應的基頻數據值,橫坐標為0到1,其間隔為1/(n-1)。其中m<n并且1 (m-1)>1/(n-1)。
(1)取原始數據的第一個點為重采樣的第一個點。
(2)計算重采樣的第二個點。根據重采樣的第二個點x橫坐標為1/(m-1),位于區間[1/(n-1),2/(n-1)],選擇線性插值運算在其所在區間上進行插值運算,可得到其對應的重采樣數值y,如公式(3)所示:
y=(f2-f1)(n-1)x+2f1-f2 (3)
這里假設點1/(n-1)對應的原始基頻為f1,點2/(n-1)對應的原始基頻為f2。
(3)依次選取不同的橫坐標點x,可求出重采樣的所有數據y。
5. 歸一化處理
提取的基頻數據經過以上處理后效果有一定的改善,但針對漢語聲調自身的特點,為了選擇一種較有效的識別模型,必須先分析說話人的聲調分布情況。[5]由于每個人的發音特點和口音各不相同,相同字的基頻曲線有很大差異,但是每個人的整體頻域范圍差異卻不顯著。因此,可以通過歸一化處理讓識別模型能夠處理大部分人的語音,即將所有的基頻數據處理到同一個數量區域內。基于此,采用歸一化公式(4)計算:
=(f-fmin)/(fmax-fmin) (4)
式中fmax表示單個說話人基頻上限的90%,fmin表示單個說話人基頻下限的1.1倍。由于獲取當前說話人的基頻上下限很困難,因此fmax和fmin的值使用當前語音樣本頻率的上限和下限值來代替。
要注意的是經過插值平滑的基頻數據需要取對數運算后才可以進行歸一化。這主要是由于錄音時可能出現發音抖動,使得某個頻率值過大或過小,因此要剔除頻率過高點或過低點。
(二)基于k- gmm的聲調識別
1. k-gmm模型設計
對于特定人的識別,k-means聚類算法[6]能夠得到較好的識別率。但在非特定人識別模型中,由于每個人的頻域不同,此方法存在很大的缺陷。
高斯混合模型(gmm)是具有混合高斯密度函數的隱馬爾科夫模型(hmm),高斯混合模型由多個高斯分布線性加成在一起構成其概率密度函數,用來描述特征矢量在概率空間的分布情況,更適用于非特定人的識別,基于此本本文由收集整理文提出了k-gmm模型。
以單字組為例,k-gmm模型識別的算法思想如下:
(1)對已知的聲調訓練樣本按聲調進行分類,單字組聲調分為四類。將每一種聲調的訓練樣本按照k-means聚類算法進行聚類,并且求出聚類后的每一類的每一維特征的均值uikj和?滓2ikj方差,以及這一類占整個這個聲調的權重?棕ik,其中i=1,2,3,4;j=1,2…,m;k=1,2。k值采用遍歷搜索法求出,這里取2。
(2)由(1)求出的均值和方差,按照gmm模型求出其對應的概率密度函數pikj,如公式(5)所示。
pikj(x:?滋ikj,?滓2ikj)=e (5)
(3)求出每種聲調的每一類的特征矢量的概率密度函數。由于可以將特征矢量的每一維特征看作是獨立的,因此其概率密度函數就是每一維的概率密度的乘積,如公式(6)所示。
pik=pikj (6)
(4)以(1)(2)(3)為基礎,將測試樣本xn帶入到四類聲調對應的所有模型中,求出其概率密度函數值pik。
(5)將每一類進行加權求和,通過公式(7)進行。然后求出基頻數據所有模型的最大值max(pi),此最大值對應的值就為測試樣本的聲調。
pi=?棕ikpik (7)
注意,由于基頻的數值進行了歸一化處理,因此,求出的概率密度函數值會很小,為了便于處理,將其值取對數。
(三)實驗結果分析
利用標準語音庫863語料樣本的單字組的訓練和測試樣本,訓練樣本為104組,測試樣本為103組。采用上述的基頻提取算法,以k- gmm模型作為識別模型進行實驗。實驗結果(基頻特征維數為15)見表1。
從實驗結果中可以看出該模型對聲調的識別率還是較高的。同時利用該模型對不同的基頻特征維數分別進行了實驗,發現特征維數不能太小,也不能太多。特征維數太小不能體現基頻的大部分信息,特征維數越多,信息體現得越全面。但是特征維數太多會加大運算量。實驗表明,特征維數選擇在10到30之間時,識別率沒有明顯變化。表1中的數據是基頻特征維數為15時的實驗結果。
三、計算機輔助語言學習中
對聲調識別的應用研究
目前計算機輔助語言學習雖然經過了一段時間的發展,但是主要還是停留在課堂使用多媒體教學的層面上,對于激發學生學習興趣、培養學生自主學習的能力等方面做得還不夠。鑒于此,聲調識別技術應用方向和價值主要體現在以下幾方面。
(一)計算機輔助語言學習中對聲調識別的應用方向
1. 計算機輔助語言學習語音評測系統
應用聲調識別技術可以開發關于語音發音評測的評測系統。該技術的應用可以使得計算機識別人的語音變為可能,當然僅僅依靠聲調識別技術是不能夠完全識別語言的,但是這是識別語言非常重要的組成部分。通過識別的語音再進行相關評測技術的評測即可得到發音者的語音評測結果。通過語音評測系統可以使學習者自行進行發音評測。
2. 交互型計算機輔助語言學習應用軟件
應用聲調識別技術可以開發關于語音的相關交互型的學習軟件。該類軟件可以展示正確的語音、識別發音者的語音,可以由發音者的語音控制某些進程動作的執行,進行語音練習和學習。如一些語音小游戲,可通過語音控制游戲的進行。使用這些交互型的計算機輔助語言學習應用軟件,使得學習者可以在一個交互的環境中自主地進行想要學習和練習的內容。
(二)計算機輔助語言學習中對聲調識別的應用價值
1. 促進計算機輔助語言學習的新應用
目前計算機輔助語言學習主要依靠多媒體輔助教學的形式來完成,這一形式注重“教”而忽略了“學”,同時在很大程度上阻斷了教師和學生的交流與聯系。[7]這對漢語這一具有豐富信息量的語言學習是十分不利的,因此計算機輔助語言學了注重“教”也要注重“學”。在學生學習漢語的過程中,很大一部分時間是在課下進行的,而漢語言的發音是學習語言的最基本的要素之一,發音是否標準是衡量普通話好壞的一個重要標準。因此對于學習者要進行發音的評測,如何讓評測發音在教師不在場的情況下進行是目前遇到的普遍問題。利用本文這種識別率較高的聲調識別技術開發普通話評測系統即可解決這一問題。這一問題的解決可以促進計算機輔助語言學習的發展,給計算機輔助語言學習提供新的應用研究方向。
2. 促進、激發學生的學習興趣,提高學生自主學習的能力
計算機輔助語言學習過程中,教師通過多媒體課件、視頻、音頻、電視錄像等技術手段來激發學生的學習興趣,但往往容易忽略和學生的互動性。[8]隨著多媒體技術軟硬件的發展,現在可以開發一些學習型的應用軟件,利用這些軟件可以和學生互動,彌補課堂互動性差的不足。使用高質量的聲調識別技術可以開發針對語音學習的軟件,使得學生可以和計算機互動,評測發音準確度。甚至通過開發一些互動語音小游戲,讓學生在玩的過程中學習,來進一步激發學生的學習興趣。通過這些方式可以避免學生單純依賴教師上課進行學習,為學生課下自主學習提供了新的環境,有助于提高學生的自主學習能力。因此,這一語音聲調識別技術有一定的實用價值。
關鍵詞: 子空間識別 模態參數識別 隨機子空間
中圖分類號:P424文獻標識碼: A 文章編號:
引言
準確的結構模態參數識別對于結構響應分析、狀態監測、結構控制等研究有著非常重要的意義。但是傳統的模態參數識別要求同時測量輸入和輸出信號,這給大型工程結構的振動測試帶來了不少困難,如難以施加有足夠能量的激勵或者激勵昂貴、測試過程中影響結構的正常使用等。于是,研究者們提出了僅測量結構在正常使用時的環境激勵下的響應信號的模態參數識別思路,稱之為基于環境激勵的模態參數識別或工作模態分析(OMA)。該類方法不但無需特意施加人工激勵、測試過程中不影響結構使用,并且識別出的模態參數反映了結構的真實邊界條件和工作時的動態特性,故受到廣泛關注和研究。
基于環境激勵的方法主要可分為頻域類方法和時域類方法【1】【2】【3】。頻域類方法主要有峰值拾取法、頻率分解法等【4】。時域類的方法主要有:①Ibrahim提出的基于隨機減量技術從白噪聲激勵下結構隨機響應中提取自由響應進而識別模態參數的ITD法【5】【6】;②美國Sandia實驗室James等提出的自然激勵技術(NExT)【7】,作者首次證明了白噪聲激勵下測量通道間的互相關函數和脈沖響應函數具有相同數學表達式,從而以其代替脈沖響應,再結合傳統的基于脈沖響應的識別方法完成環境激勵下的模態參數識別;③隨機子空間方法,該方法的主要貢獻者如Akaike首先解決了狀態空間模型的隨機實現問題【8】, Overschee 和Moor于1993年提出了直接基于數據的隨機子空間方法【9】。1999年比利時魯汶大學土木系Peeters及Doeck提出基于參考點的隨機子空間方法【10】。在這些方法中,隨機子空間方法因無需迭代、計算量小,識別結果精確可靠而得到廣泛關注。
在協方差驅動的參考點隨機子空間方法中,通過將識別方法中全部測試通道間的相關函數計算減少為全部通道僅和參考通道間的相關計算,顯著減少了該類方法的計算量。該方法在減少運算量的同時,是否會對模態參數識別的精度帶來影響?本文將在闡述該方法的識別理論之后, 以一個數值算例探討參考點隨機子空間方法的識別效率,包括運算時間,結果的準確性,并對參考通道的選擇提供參考意見。
1 協方差驅動的參考點隨機子空間識別
在基于環境激勵的模態參數識別中,激勵本身未測量,假定其滿足零均值平穩白噪聲條件,則結構的離散隨機狀態方程組為:
(6)
假定含未知輸入和噪聲的隨機項和的協方差矩陣滿足關系:
(7)
其中為記號。
振動測試中,測量物理量通常為加速度信號,參考點隨機子空間方法的識別程序是首先構造全部個測量通道加速度與個參考點通道間的相關函數的矩陣(非參考點協方差隨機子空間方法則為全部通道間的相關函數矩陣):
(8)
其中:
(9)
為輸出響應間相關函數矩陣在時滯值為的估計值,。對矩陣進行奇異值分解得:
(10)
由隨機狀態方程的性質可將矩陣表示為擴展觀測矩陣和逆向隨機控制矩陣的積,則得到擴展觀測矩陣表達式為:
(11)
則離散系統矩陣可由擴展觀測矩陣的移位結構關系得到:
(12)
其中為擴展觀測矩陣的上行矩陣的虛逆, 為下行矩陣。矩陣可直接取擴展觀測矩陣的上行得到。模態頻率、阻尼及振型可通過對離散系統矩陣進行特征值分解后由下式得到:
(13)
值得注意的是:在方程(10)中,理論上系統真實階次可以由不為零的奇異值數量決定,但是在實踐應用中,普遍出現奇異值均不為零,甚至它們的值之間也不會出現顯著差異。這時,根據虛擬模態(計算模態)將不會穩定出現的特點,可以假定系統階次在一定范圍內變化,在各階次中穩定出現的總次數來判斷其是否是真實的物理模態即穩定圖方法。
2數值算例
應用Midas/civil軟件建立一平面等截面簡支梁,計算跨徑32m,斷面為GB-YB工字形,型號為I100x68x4.5/7.6,材料為Q235鋼材,彈性模量206,有限元離散劃分為16個平面梁單元,單元長度2.0m,如圖1所示。在橋梁半跨內的第2至第9號節點豎向同時施加有限帶寬白噪聲動荷載模擬環境激勵。根據響應結果,對照非參考點隨機子空間方法研究參考點識別方法的識別精度,同時探討參考點的選擇方法。
圖1:簡支梁數值模型
2.1 生成白噪聲激勵信號
采用的目標時域白噪聲激勵力信號的峰值為1KN,采樣頻率為50Hz,持續時間為180秒。該信號采用Matlab程序首先由白噪聲的已知功率譜密度函數推求頻譜函數,再疊加隨機相位譜后經傅里葉逆變換生成。有限帶寬白噪聲功率譜密度值指定在0.01Hz至100Hz區段為1.0,原始采樣頻率為400Hz,其它頻率區間值為0,生成信號的功率譜密度分別如圖2所示。將該信號經1/8倍重采樣和峰值調整后便得到目標信號如圖3。連續執行8次得到所需的8個節點動荷載歷程。
圖2:生成信號的功率譜密度
圖3: 節點動荷載時程
網絡出
>> 基于船舶自動識別系統的局部縮減航道元胞自動機模型 基于構詞模式的未登錄描述詞自動識別的研究 基于分類技術的交通標志自動識別的研究與實現 基于改進的神經網絡異常聲音自動識別系統研究 基于自動識別技術的新疆特色林果產品供應鏈管理研究 基于RFID在車輛信息自動識別技術的研究與應用探索 基于數學形態學的地層特征自動識別方法研究 基于BP神經網絡壁紙自動識別的研究 基于HSI顏色空間的小麥粉精度自動識別研究 基于自動識別的壓力表 基于HOUGH變換的航空儀表自動識別 藏文不自由虛詞的自動識別研究 車牌自動識別的算法研究與實現 車牌自動識別技術研究 網頁體裁自動識別研究 藏文人名自動識別研究 ETC中基于RFID的雙標簽汽車牌照自動識別系統研究 淺談自動識別技術的發展 中文比較句的自動識別 漢語介詞短語的自動識別 常見問題解答 當前所在位置:l
基金項目:北京巖溶水資源勘查評價工程項目(BJYRS-ZT-01-02);水沙科學與水利水電工程國家重點實驗室資助項目(2012-KY-05)
作者簡介:姚晨晨(1988-),男,江蘇海安人,工程師,主要從事抽水蓄能電站水能設計等方面的研究。E-mail:
摘要:基于物理機理的分布參數模型廣泛用于評價和模擬地下水流和水力響應。傳統的確定數值模型參數的試錯法(人工方法),過多地依賴于建模者的經驗和主觀判斷,并且是一個非常耗時的過程。引進一種帶約束、非線性、全局收斂且無需求導的Condor優化算法,以理想的地下水模型為例,實現了模型參數自動識別的完整過程,并與廣泛采用的遺傳算法收斂效果進行對比。結果表明,相比于遺傳算法,Condor算法受參數初值影響小,尋優效率提升顯著。
關鍵詞:參數估計;自動識別;Condor算法;分布參數模型
中圖分類號:P641 文獻標志碼:A 文章編號:
1672-1683(2015)04-0733-04
Case study of parameter auto-calibration of distributed parameter model based on Condor algorithm
YAO Chen-chen1, WEI Jia-hua2
(1.PowerChina Huadong Engineering Corporation,Hangzhou 310014,China;
2.State Key Laboratory of Hydroscience and Engineering,Tsinghua University,Beijing 100084,China)
Abstract:Physically-based distributed parameter models have been widely used to evaluate and predict groundwater flow and hydraulic response.The traditional trial-and-error approach for calibrating the numerical model parameters depends on the experience and subjective assessment of the modeler and can be very time-consuming.In this paper,the Condor algorithm,a constrained,non-linear,and derivative-free optimizer,is introduced into parameter auto-calibration of a synthetic groundwater model.It achieves a complete process of parameter auto-calibration of the model.The convergence effects are compared with those using the genetic algorithm,which suggests that the Condor algorithm is less affected by the initial parameters and improves the optimizing efficiency significantly compared with genetic algorithm.
Key words:parameter estimation;auto-calibration;Condor algorithm;distributed parameter model
1 研究背景
參數識別是分布參數數值模型建模工作中至關重要的環節,參數識別效果直接關系到模擬預測結果的可靠性。參數識別是一項復雜、費時的過程,其表現出的非唯一性、不穩定性[1],加大了識別的難度。絕大部分的分布參數數值模型的參數識別,多采用試算法,即通過人工改變參數值,不斷比對模擬值和實測值,直至擬合效果“滿意”為止。這一過程由于缺乏收斂準則,主要依賴建模者的經驗,具有較大的主觀性[2]。為提高模型參數識別過程的工作效率,在參數自動識別或在自動識別基礎上再進行對比論證,已成為必然趨勢。一些常用的專業模型軟件都開發了參數自動識別軟件包,如PEST、UCODE、iTough2等。
參數自動識別,一般通過最小二乘或極大似然估計構造目標函數,借助優化算法,在參數解空間自動搜尋參數最優值。由于模擬模型計算時間較長,因此對優化算法效率的要求較高。參數識別尋優算法可以分為四類:一是基于函數梯度信息的尋優方法,如最速下降法、高斯-牛頓法、共軛梯度法[3]等,這類基于梯度的算法需要直接求解目標函數的導數信息,易陷入局部最優,較難應用到復雜的模型參數識別問題中。二是啟發式全局搜索算法,如遺傳算法、模擬退火、禁忌搜索、人工神經網絡等,這類方法普適性較強,應用廣,但對大規模問題而言,搜索效率不高,且難以保證所獲得的解是全局最優。三是基于概論統計分析的參數識別,如最大似然法(maximum likelihood),這種方法建立在大量枚舉計算樣本統計基礎之上,一般給定一個概率分布,假定其概率密度函數(probability density function,PDF)及分布參數,從這個分布中抽出一個具有n個值的采樣,利用概率密度函數,計算出其概率,并能給出某一概率下的可能參數值,這種方法目前多與其它優化方法結合使用。四是本文重點關注的非求導的(derivative-free)優化算法,這類方法克服了直接求導帶來的諸多問題,如Tolson和Shoemaker (2007)[4]提出了適合流域模型參數自動識別的動態維搜索算法(DDS),并通過實例分析了算法的應用效果。Powell提出COBYLA算法[5],通過線性插值逼近目標函數進行優化計算,隨后Conn的DFO算法[6]、Powell的UOBYQA算法[7],分別用牛頓多項式插值和拉格朗日多項式插值擬合目標函數,提高了算法的收斂速度和精度。Frank在UOBYQA算法的基礎上,加入對約束條件下求解的支持,并引入并行機制,進一步增強了算法的適用范圍,發展出Condor算法[8]。Condor算法在計算流體動力學尋優問題上的成功運用,也為其它應用提供了參考。
Condor算法克服了最速下降法、高斯-牛頓法、共軛梯度法等算法對梯度的直接求解,通過拉格朗日多項式插值技術獲取目標函數的梯度信息,在克服基于梯度算法對噪聲靈敏缺點的同時,保持了基于梯度算法的高效率。本文介紹了Condor算法的原理及流程,并通過理想的地下水模型參數自動識別為例,分析其在高運算負荷、多維變量函數尋優中的表現。
2 Condor算法
Condor算法利用拉格朗日插值,在小區域內構造二次型逼近目標函數,利用信賴域方法求解二次型最優解以擬合目標函數最優解,通過不斷迭代逐步達到最優。Condor算法充分利用了目標函數的導數信息,大大增加了尋優效率,同時插值技術的運用又避免了導數信息的直接求解。Condor算法的簡要流程如下[8]。
(1)利用拉格朗日多項式插值技術在初始點xstart附近構造二次型多項式q0(s)。插值點集Y中的點(用以構造q(x))由初始給定數值ρstart分散開距離。令xk是當前迭代為止使目標函數值最優的點,ρ0=ρstar。在以下的算法中,通過集合Y在xk附近插值構造f(x)的近似式qk(s)。qk(s)=f(xk)+gtks+stHks,其中gk表示點xk處f(x)的梯度近似,Hk表示點xk處f(x)的海森矩陣近似。
(2)信賴域半徑Δk=ρk。
(3)內部循環:在ρk精度下求解問題。
步驟1,①求解步長sk,滿足mins ∈Rnqk(s) s.t.s2≤Δ;②如果s2ρk或者f(xk+1)
步驟2,檢查qk(s)在信賴域內的有效性。若模型無效,則進一步提高二次型qk(s)的擬合質量。具體做法:找一個新點xnew滿足xnew-xkρk跳轉至步驟1,否則繼續。
(4)當優化步長s變得很小時,減小ρk,以進一步提高精度。
(5)如果ρk=ρend,算法終止,否則k=k+1,返回至流程 (2)。
3 實例研究
3.1 參數自動識別框架
針對模擬問題進行建模,首次假定“標準參數”,代入正向模型中模擬運行產生模擬值作為“觀測值”。將不同參數代入進行數值模擬,通過模擬值與“觀測值”的誤差平方和作為目標函數(即最小二乘法),借助合適的算法在參數約束空間內不斷迭代求解,搜尋目標函數的最優值,從而實現分布參數模型的參數自動識別。參數自動識別框架見圖1。
3.2 正向模型建立
假定一個非均質各向同性的理想承壓含水層進行數值實驗。模擬的區域為規則長方體,三維尺寸5 000 m×5 000 m×50 m。源匯項除區域中心的兩口抽水井(坐標分別為[2 500,1 500],[2 500,3 500])外,降雨、蒸發等均忽略不計,抽水井以天為單位,變流量抽水,假定抽水過程見表1。東西側邊界條件設定為定水頭,分別為40 m、45 m,南北側、頂板、底板為不透水層。模擬區域內,除了滲透率、孔隙度不考慮其他參數的影響,根據滲透率、孔隙度的變化,將區域概化為三塊。并在三個子區域內設觀測井(共13個、位置見圖2)。
其中,K為滲透系數,(xj,yj)為抽、注水井的坐標,V為抽、注水井數量,Qj為抽、注水流量,δ為δ函數(抽水為正,注水為負),Ss為貯水率,與孔隙率的關系Ss=γ(a+φβ) (γ為水的容重,a為土的體積壓縮系數,β為水的體積壓縮系數,φ為孔隙度),水頭H1=40 m,H2=45 m,a=5 000 m。
利用有限差分法對滲透區域進行離散,單元網格大小為100 m×100 m×50 m,即,整個滲透區域分成50×50×1個網格。借助數值模擬軟件HST3D程序正向模擬,選擇0.1 d為步長,模擬10 d內滲透區域的水壓力場的情況。單次模型正向運行時間5 s。
該區域內的三維非穩定流定解問題表述如式(1):
3.3 遺傳算法識別成果
本例中的遺傳算法采用實數編碼方式(RAGA),并對每代最優個體進行保留。算法相關參數:交叉因子0.85,變異因子0.05,初始種群數取100,迭代次數取500,識別結果見表3。
3.4 Condor算法識別成果
設計方案1-方案3分別從不同初始值出發,方案4*在目標函數中人為添加了[-100,100]區間內的隨機均勻噪聲(考慮到實際觀測中存在誤差),分別進行尋優迭代,結果見表4。算法相關參數:模型初始步長0.1,終止步長1e-6。
4 算法討論
4.1 Condor算法
對比方案1-方案3,本例中不同參數初始值對Condor算法尋優的影響并不明顯,相應的目標函數在迭代300次左右開始收斂。從識別效果上來看(表2),6個參數的自動識別結果相對誤差均在1%以內,多數在0.5%以下,參數自動識別效果理想。同時,算法尋優速度快,整套參數自動識別的時間在15 min以內。
對比方案1-方案3、方案4*,由于在方案4*的目標函數中加入了均勻隨機誤差,參數識別值的相對誤差增大,部分參數(如k3、φ3)達到5%,最優目標函數值也由方案1的101量級提高到方案4*的103量級,迭代次數也略有增加。但從最終識別的結果可以看出,人為隨機誤差對Condor算
4.2 遺傳算法與Condor算法對比
對比遺傳算法及Condor算法的前3個方案(表5),可以看出,Condor算法克服了遺傳算法效率方面的缺陷,參數自動識別時間大為減少(遺傳算法72 h-迭代大約50 000次未收斂,Condor算法15 min-迭代大約370次收斂),同時大幅提高了參數識別的精度(遺傳算法中10%的參數相對誤差提高至Condor算法中0.5%的參數相對誤差,目標函數值從103量級減小到101量級)。就本例來看,Condor算法用于參數自動識別的效果要優于遺傳很多。
5 模型不確定性分析
5.1 靈敏度分析
以Condor算法自動識別的參數值做模型不確定性分析,靈敏度計算采用如下標準化形式[9]:
xk=Sak/ak≈S(ak+Δak)-S(ak)Δak/ak (2)
式中,ΔS=S(ak+Δak)-S(ak)為由于參數變化引起的目標函數從基準例子S(ak)到新例子S(ak+Δak)的變化量。選取觀測與模擬水頭殘差均方根(RMS)作為S進行計算,并給予每個參數5%的擾動。
從圖3可以看出,分區1的水頭值對參數k1較為敏感,分區2對參數k1、φ2敏感,分區3的水頭值對6個參數的變化都比較敏感,水平較統一。
5.2 一階誤差分析
Var[y]=∑ni=1Var[xi]yxi2X0(3)
假定Condor算法識別出的6個參數服從對數均勻分布,給定對數擾動范圍為5%。
從圖4可以看出,同一分區對稱井位受參數誤差影響幾乎水平相當,分區2及靠近分區2的井位不確定最大,尤以滲透區域中心的井位最明顯。
6 結論
本文采用一種帶約束、非線性、全局收斂且無需求導的Condor優化算法,并以理想的地下水模型為例,介紹了模型參數的自動識別方法,并與廣泛采用的遺傳算法收斂效果進行對比。從識別的過程及結果可以形成如下結論:利用
Condor算法優化識別分布參數的地下水流模型參數,優化迭代過程穩定,參數自動識別效果好,初值對算法影響不明顯,同時對人為添加到目標函數中的噪聲表現穩定;Condor算法采用插值技術構造二次型,可充分利用目標函數信息,與遺傳算法相比,尋優效率大為提高(本例中提升300倍),參數識別結果精度高。
為了便于驗證,本例采用了一個理想的含水層算例,今后將結合實際案例,利用Condor算法可并行性的優點,可將其推廣應用到復雜、非凸、高運算負荷的參數識別問題中。
參考文獻(References):
[1] Zheng C,Wang P.Parameter structure identification using tabu search and simulated annealing[J].Advances in Water Resources,1996,19(4):215-224.
[2] 薛禹群,謝春紅.地下水數值模擬[M].北京:科學出版社,2007.(XUE Yu-qun,XIE Chun-hong.Numerical Simulation for Groundwater[M].Peking:Science Press,2007.(in Chinese))
[3] Willis R,Yeh W W G.Groundwater systems planning and management[M].NJ:Prentice Hall Inc.,1987.
[4] Tolson,B.A.,and C.A.Shoemaker.Dynamically dimensioned search algorithm for computationally efficient watershed model calibration,Water Resources Research,2007,43(1).
[5] Powell M J D.A direct search optimization method that models the objective and constraint functions by linar interpolation[M].Oaxaca,Mexico:Kluwer Academic Publishers,1994.
[6] Conn A,Scheinberg K,Toint P.Recent progress in unconstrained nonlinear optimization without derivatives[J].Mathematical Programming,1997,79(1):397-414.
[7] Powell M J D.UOBYQA:unconstrained optimization by quadratic approximation[J].Mathematical Programming,2002,92(3):555-582.