前言:想要寫出一篇令人眼前一亮的文章嗎?我們特意為您整理了5篇模式識別范文,相信會為您的寫作帶來幫助,發(fā)現(xiàn)更多的寫作思路和靈感。
關(guān)鍵詞:模式;模式識別;模式識別的應(yīng)用
1 引言
人們在觀察事物或現(xiàn)象的時候,常常要根據(jù)一定需求尋找觀察目標(biāo)與其他事物或現(xiàn)象的相同或不同之處,并在此特定需求下將具有相同或相似之處的事物或現(xiàn)象組成一類。例如字母‘A’、‘B’、‘a(chǎn)’、‘b’,如果從大小寫上來分,會將‘A’、‘B’ 劃分為一類,‘a(chǎn)’、‘b’劃分為另一類;但是如果從英文字母發(fā)音上來分,則又將‘A’、‘a(chǎn)’劃分為一類,而‘B’、‘b’則為另一類。人們也可以正確地區(qū)分出它們,并根據(jù)需要將它們進(jìn)行準(zhǔn)確歸類,當(dāng)然, 前提條件是人們需要對‘A’、‘B’、‘a(chǎn)’、‘b’一般的書寫格式、發(fā)音方式等有所了解。人腦的這種思維能力就構(gòu)成了“模式識別”的概念。那么,什么是模式?什么是模式識別呢?
2 模式和模式識別
從以上的例子可以看出,對字符的準(zhǔn)確識別首先需要在頭腦中對相應(yīng)字符有個準(zhǔn)確的認(rèn)識。當(dāng)人們看到某物或現(xiàn)象時,人們首先會收集該物體或現(xiàn)象的所有信息,然后將其行為特征與頭腦中已有的相關(guān)信息相比較,如果找到一個相同或相似的匹配,人們就可以將該物體或現(xiàn)象識別出來。因此,某物體或現(xiàn)象的相關(guān)信息,如空間信息、時間信息等,就構(gòu)成了該物體或現(xiàn)象的模式。Watanabe定義模式“與混沌相對立,是一個可以命名的模糊定義的實體”。比如,一個模式可以是指紋圖像、手寫草字、人臉、或語言符號等。廣義地說,存在于時間和空間中可觀察的事物,如果可以區(qū)別它們是否相同或相似,都可以稱之為模式;狹義地說,模式是通過對具體的個別事物進(jìn)行觀測所得到的具有時間和空間分布的信息;把模式所屬的類別或同一類中模式的總體稱為模式類(或簡稱為類)。模式識別則是在某些一定量度或觀測基礎(chǔ)上把待識模式劃分到各自的模式類中去。計算機(jī)模式識別就是是指利用計算機(jī)等裝置對物體、圖像、圖形、語音、字形等信息進(jìn)行自動識別。
模式識別的研究主要集中在兩方面,一是研究生物體( 包括人) 是如何感知對象的,二是在給定的任務(wù)下,如何用計算機(jī)實現(xiàn)模式識別的理論和方法。前者是生理學(xué)家、心理學(xué)家、生物學(xué)家、神經(jīng)生理學(xué)家的研究內(nèi)容,屬于認(rèn)知科學(xué)的范疇;后者通過數(shù)學(xué)家、信息學(xué)專家和計算機(jī)科學(xué)工作者近幾十年來的努力,已經(jīng)取得了系統(tǒng)的研究成果。
3模式識別的方法
現(xiàn)在有兩種基本的模式識別方法,即統(tǒng)計模式識別方法和結(jié)構(gòu)(句法)模式識別方法。統(tǒng)計模式識別是對模式的統(tǒng)計分類方法,即結(jié)合統(tǒng)計概率論的貝葉斯決策系統(tǒng)進(jìn)行模式識別的技術(shù),又稱為決策理論識別方法。利用模式與子模式分層結(jié)構(gòu)的樹狀信息所完成的模式識別工作,就是結(jié)構(gòu)模式識別或句法模式識別。
4.模式識別的應(yīng)用
經(jīng)過多年的研究和發(fā)展,模式識別技術(shù)已廣泛被應(yīng)用于人工智能、計算機(jī)工程、機(jī)器學(xué)、神經(jīng)生物學(xué)、醫(yī)學(xué)、偵探學(xué)以及高能物理、考古學(xué)、地質(zhì)勘探、宇航科學(xué)和武器技術(shù)等許多重要領(lǐng)域,如語音識別、語音翻譯、人臉識別、指紋識別、手寫體字符的識別、工業(yè)故障檢測、精確制導(dǎo)等。模式識別技術(shù)的快速發(fā)展和應(yīng)用大大促進(jìn)了國民經(jīng)濟(jì)建設(shè)和國防科技現(xiàn)代化建設(shè)。
4.1 字符識別
字符識別處理的信息可分為兩大類:一類是文字信息,處理的主要是用各國家、各民族的文字( 如: 漢字,英文等)書寫或印刷的文本信息,目前在印刷體和聯(lián)機(jī)手寫方面技術(shù)已趨向成熟,并推出了很多應(yīng)用系統(tǒng);另一類是數(shù)據(jù)信息,主要是由阿拉伯?dāng)?shù)字及少量特殊符號組成的各種編號和統(tǒng)計數(shù)據(jù),如:郵政編碼、統(tǒng)計報表、財務(wù)報表、銀行票據(jù)等等,處理這類信息的核心技術(shù)是手寫數(shù)字識別。
4.2 語音識別
語音識別技術(shù)技術(shù)所涉及的領(lǐng)域包括:信號處理、模式識別、概率論和信息論、發(fā)聲機(jī)理和聽覺機(jī)理、人工智能等等。近年來,在生物識別技術(shù)領(lǐng)域中,聲紋識別技術(shù)以其獨特的方便性、經(jīng)濟(jì)性和準(zhǔn)確性等優(yōu)勢受到世人矚目,并日益成為人們?nèi)粘I詈凸ぷ髦兄匾移占暗陌踩炞C方式。而且利用基因算法訓(xùn)練連續(xù)隱馬爾柯夫模型的語音識別方法現(xiàn)已成為語音識別的主流技術(shù)。該方法在語音識別時識別速度較快,也有較高的識別率。
4.3 指紋識別
我們手掌及其手指、腳、腳趾內(nèi)側(cè)表面的皮膚凹凸不平產(chǎn)生的紋路會形成各種各樣的圖案。而這些皮膚的紋路在圖案、斷點和交叉點上各不相同,是唯一的。依靠這種唯一性,就可以將一個人同他的指紋對應(yīng)起來,通過比較他的指紋和預(yù)先保存的指紋進(jìn)行比較,便可以驗證他的真實身份。一般的指紋5個大的類別:左旋型(leftloop),右旋型(right loop),雙旋型(twinloop),螺旋型(whorl),弓型(arch)和帳型(tented arch),這樣就可以將每個人的指紋分別歸類,進(jìn)行檢索。指紋實現(xiàn)的方法有很多,大致可以分為4 類:基于神經(jīng)網(wǎng)絡(luò)的方法、基于奇異點的方法、語法分析的方法和其他的方法。
4.4細(xì)胞識別
細(xì)胞識別是最近在識別技術(shù)中比較熱門的一個話題。以前,對疾病的診斷僅僅通過表面現(xiàn)象,經(jīng)驗在診斷中起到了主導(dǎo)作用,錯判率始終占有一定的比例;而今,通過對顯微細(xì)胞圖像的研究和分析來診斷疾病,不僅可以了解疾病的病因、研究醫(yī)療方案,還可以觀測醫(yī)療療效。如果通過人工辨識顯微細(xì)胞診斷疾病也得不償失,費力費時不說,還容易耽誤治療。基于圖像區(qū)域特征,利用計算機(jī)技術(shù)對顯微細(xì)胞圖像進(jìn)行自動識別愈來愈受到大家的關(guān)注,并且現(xiàn)在也獲得了不錯的效果。但實際中,細(xì)胞的組成是復(fù)雜的,應(yīng)該選擇更多的特征,建立更為完善的判別函數(shù),可能會進(jìn)一步提高分類精度。
參考文獻(xiàn):
[1] 邊肇祺,張學(xué)工等編著. 《模式識別》(第二版). 北京:清華大學(xué)出版社,2000.
[2] 王碧泉,陳祖蔭. 《模式識別理論、方法和應(yīng)用》. 北京:地震出版社,1989.
在科學(xué)技術(shù)飛速發(fā)展的今天,電氣設(shè)備已經(jīng)融入各個領(lǐng)域,電氣設(shè)備故障診斷成為熱門話題。本文介紹了電氣設(shè)備運行中常見的故障種類及模式識別技術(shù),并從技術(shù)實踐的角度探討了電氣故障排除應(yīng)遵循的步驟,總結(jié)了電氣設(shè)備故障分析常用的處理方法,以對相關(guān)工作有所幫助。
關(guān)鍵詞:
電氣設(shè)備;常見故障;故障診斷
在實際生活中,盡管已經(jīng)學(xué)會了一些基本的電氣故障診斷的方法并能夠加以應(yīng)用,但設(shè)備在實際工作中總會出現(xiàn)一些意外,此時應(yīng)該高效而精確的找到故障的原因,并及時對此施以解決方法。在實際環(huán)境中,某些電氣故障的原因很難查詢,并且給予解決問題的時間有限,通常只會用基本的測量儀器進(jìn)行簡單的檢查,想快速精準(zhǔn)的解決問題并不容易。因此,對電氣故障做深入研究就顯得十分重要。
1電氣設(shè)備故障的類型及其診斷分析
想要識別電氣設(shè)備故障的類型并排除故障,應(yīng)熟悉建筑物內(nèi)主要電氣設(shè)備的組成、各部分的功能和控制系統(tǒng)的運行機(jī)理,在發(fā)生建筑電氣設(shè)備故障時,再進(jìn)一步分析發(fā)生故障的系統(tǒng)[1]。在檢查電氣設(shè)備故障時應(yīng)檢查各器件有沒有損傷,設(shè)備工作或放置的環(huán)境是否過于潮濕,溫度是否符合規(guī)范;要借助有關(guān)設(shè)備對電氣設(shè)備進(jìn)行細(xì)致的檢查分析;根據(jù)故障的各種信息,結(jié)合相關(guān)知識,找到故障的根源。電氣故障一般可分為2類:顯性故障。例如接觸器線圈溫度過高、冒煙、接頭有所松動以及發(fā)出異常聲音等,這些問題都很容易使人發(fā)現(xiàn);隱性故障,由于隱形故障體現(xiàn)在設(shè)備表面上的現(xiàn)象并不多,所以也不容易被發(fā)現(xiàn),而隱形故障主要是存在于控制電路的故障。比如因為對電氣設(shè)備進(jìn)行了不適當(dāng)?shù)陌惭b、維護(hù),造成線路中的觸頭及接線頭接觸不良、小設(shè)備的損壞和缺失,甚至是導(dǎo)線老化,這些都能成為引發(fā)線路故障的起因。一般來說電氣線路越復(fù)雜類似的故障出現(xiàn)的概率便越高[2]。這類故障雖然看似微不足道,卻是最容易發(fā)生并被忽視的,又因為這種故障的特征和外在跡象直接傳達(dá)給工作人員的線索較少,最終能精準(zhǔn)地推斷出故障的來龍去脈所花費的時間還是過長。因此借助各種測量工具和儀器成為了解決問題的必要條件。這類問題一般只要找到故障點,通過簡單的調(diào)整就能使設(shè)備正常工作,所以能否找到故障點成為了關(guān)鍵[3]。
2電氣控制電路的故障診斷與分析
電氣控制電路的故障主要有電源故障、線路故障以及元器件故障。
2.1電源故障分析電源的正常工作是順利保證其他所有電氣設(shè)備正常工作十分必要的條件。如果電源存在故障,則電路必然不能正常運行,甚至可能損壞設(shè)備。電源的類型并不是統(tǒng)一的,一種類型的電源有著與其他電源相區(qū)別的性能參數(shù),所以電源的故障類型也是各種各樣的。每一用電設(shè)備對與自身相匹配的電源參數(shù)都有其獨特的要求,這就為尋找電源故障的過程帶來些不便。不符合相關(guān)要求的電源參數(shù),會使電源產(chǎn)生故障。在電氣系統(tǒng)的運行過程中,如果此時電源的參數(shù)不穩(wěn)定,例如電壓、電流時大時小,頻率忽高忽低等,這些都極易使電氣設(shè)備產(chǎn)生故障。要想找到這種故障,只需用相關(guān)設(shè)備進(jìn)行仔細(xì)測量即可。但某些故障查找起來則有些難度,比如波形失真、相位錯位、頻率穩(wěn)定度、諧波分量等參數(shù),則需憑借更復(fù)雜更精密的設(shè)備方能對故障進(jìn)行有效的判斷。
2.2線路故障分析線路故障分為導(dǎo)線故障和導(dǎo)線連接部分故障。導(dǎo)線絕緣皮過度老化或?qū)Ь€破損斷裂均可引起導(dǎo)線故障。如果連接處發(fā)生了氧化、松動、移位甚至脫落,則極易引發(fā)導(dǎo)線連接部分故障。發(fā)生線路故障時,控制電路會變得很不穩(wěn)定,會出現(xiàn)時斷時續(xù)、接觸不良等現(xiàn)象。接觸不良是一種常見又很麻煩的故障,插件松動、接點表面氧化、焊接不良、接觸簧片彈性退化等都是導(dǎo)致線路發(fā)生接觸不良的原因[4]。正因為這些故障源頭太細(xì)小,所以這種故障初期都很難被發(fā)現(xiàn)。
2.3元器件故障分析關(guān)于元器件的故障可分為2類:元器件損壞故障;元器件性能變差導(dǎo)致的故障。元器件如果在長期工作中環(huán)境條件超過規(guī)范或遭受過不可忽視的外力破壞,就極易對自身帶來不同程度的損壞。元器件損壞會給電路正常工作帶來干擾或使其缺失部分功能甚至癱瘓。但元器件損壞的故障表現(xiàn)比較明顯,易及時發(fā)現(xiàn)并找到癥結(jié)所在。而元器件性能變差這一故障卻由于在故障前期并無明顯征兆而使人難以查找。工作環(huán)境的改變或受其他故障的影響都會引起元器件性能變差。若電氣控制電路的元器件性能持續(xù)長時間達(dá)不到要求,則會導(dǎo)致整個電氣系統(tǒng)故障[5]。
3電氣故障診斷識別方法
隨著計算機(jī)技術(shù)的研究和應(yīng)用,模式識別技術(shù)也發(fā)展起來。模式識別是一種可以用于設(shè)備故障診斷的重要手段。人們通過分類法來給世界的各種事物分類。給某一類事物下概念和確定范圍,然后給予它定量的描述,這被稱為模式,然后通過將那些已知模式與需要識別的事物對比,進(jìn)行識別、歸類,將那些具有某種共同點的模式集合稱為模式類。模式識別不是傳統(tǒng)利用人來識別,而是使用計算機(jī)來識別,即利用計算機(jī)代替人來對各種物理量進(jìn)行描述和分類,將需要檢測的模式分配到對應(yīng)的模式類中去。其過程可由圖1來表示。圖1中被識對象先通過A/D變換,將其特征轉(zhuǎn)換為夠被計算機(jī)處理的數(shù)字量(如果被識別的對象為非電量,那么首先應(yīng)將它們轉(zhuǎn)換為電信號)。信號通過預(yù)處理,過濾掉混入的干擾信號,并且放大有用信號。經(jīng)過過濾后的有用信號,通過特征抽取,以方便接下來的分類。模式分類則是在特征抽取的基礎(chǔ)上,將被識別的對象歸類,并確定它屬于其中的某種模式[6]。確定電氣設(shè)備故障類型,進(jìn)而解決故障。
4結(jié)論
電氣設(shè)備故障可能會引起整個系統(tǒng)的運行,而系統(tǒng)中電氣設(shè)備的運行狀態(tài)又不是一成不變的,因此技術(shù)人員必須對各電氣設(shè)備運行狀態(tài)進(jìn)行靈活的分析與判斷。基于能量損耗和運行狀態(tài)的計算,可以幫助技術(shù)人員在短期內(nèi)做出初步判斷,找出故障的位置和原因,然后再對問題點進(jìn)行進(jìn)一步分析、推理,從而判斷問題的源頭,并予以解決,保障電氣設(shè)備的正常運行。
參考文獻(xiàn)
[1]郁君平.設(shè)備管理[M].北京:機(jī)械工業(yè)出版社,2011.
[2]恒,嚴(yán)璋,譚克雄等.電氣設(shè)備狀態(tài)監(jiān)測與故障診斷技術(shù)[M].北京:中國電力出版社,2009.
[3]自動化與儀器儀表[J].2014(6):186-188.
[4]劉新輝,張文友.建筑電氣技術(shù)[M].西安電子科技大學(xué)出版社,2011.
[5]李葆文.現(xiàn)代設(shè)備資產(chǎn)管理[M].北京:機(jī)械工業(yè)出版社,2006.
關(guān)鍵詞:肺癌分型; 支持向量機(jī); 神經(jīng)網(wǎng)絡(luò); Logistic回歸
中圖分類號:TP391 文獻(xiàn)標(biāo)識碼:A
文章編號:1004-373X(2010)10-0083-03
Comparision of Lung Cancer Grouping Based on Pattern Recognition
LIU Lu1,2, MA Jun-lei1, LI Yun3, DONG Yong-qing4, LIU Wan-yu2
(1. School of Automation, Harbin University of Science and Technology, Harbin 150080, China;
2. HIT-INSA Sino-French United Biomedicine Image Research Centre,Harbin Institute of Technology, Harbin 150001, China;
3. Beijing Filiale of China Combined Network Communication Ltd., Beijing 100052, China;
4. Changbai Wireless KTLA of Jilin Province, Changbai 134400, China)
Abstract: Taking account ofthe influence of different features on the grouping accuracy, the charactesistic selection and optimal experiment were performed by adopting the logistic regression analysis method, and the grouping comparison of the common peripheral lung cancer was carried out by methods of neural network and support vector machine. During the experiments, the application of both the neural network and the support vector Machine methods was adopted, and also the two methods in the application of lung cancer grouping were compared. The experimental results prove that under condition of small sample, the support vector machine method has a stronger generalizability than the neural network method.
Keywords: lung cancer grouping; support vector machine; neural network; Logistic regression
0 引 言
近年來,隨著計算機(jī)軟、硬件基礎(chǔ)的提升以及人工智能技術(shù)的發(fā)展,統(tǒng)計方法和模式識別方法在醫(yī)學(xué)研究領(lǐng)域得到了廣泛的應(yīng)用。分類是模式識別方法的一個重要方面,目的是找出描述并區(qū)分?jǐn)?shù)據(jù)類或概念的模型,以便能夠用該模型預(yù)測類別未知的對象所屬的類[1]。用于醫(yī)學(xué)研究領(lǐng)域的分類方法主要包括統(tǒng)計方法,如Logistic回歸分析以及模式識別方法如支持向量機(jī)方法、神經(jīng)網(wǎng)絡(luò)方法等。
周圍型肺癌常見病癥分為3種:腺癌、鱗癌、小細(xì)胞癌。本文主要采用統(tǒng)計方法和模式識別的理論對周圍型肺癌的3種病癥的一些臨床表現(xiàn)進(jìn)行分析和分類判別。實現(xiàn)了特征的優(yōu)選以及基于不同模式識別分類器的周圍型肺癌診斷方法,并比較和分析幾種分類器在肺癌分型中的特點。
1對象和方法
1.1 對象
選擇哈爾濱醫(yī)科大學(xué)附屬腫瘤醫(yī)院2006年12月~2007年12月期間的周圍型肺癌101例,其中男66例,女35例;鱗癌42例,腺癌52例,小細(xì)胞癌7例。
納入本次研究標(biāo)準(zhǔn):
(1) 病理學(xué)或細(xì)胞學(xué)診斷的肺癌患者(鱗癌、腺癌、小細(xì)胞癌)。
(2) 均有醫(yī)院統(tǒng)一詳盡的臨床診斷資料。
1.2 判別分析
在所選的101例周圍型肺癌中選擇臨床上有特征性的客觀指標(biāo)共10個,對其按SPSS 11.5軟件包進(jìn)行處理,并將101例患者逐一進(jìn)行量化[2]:性別(男1,┡2),年齡(3 cm=2),吸煙與否(無=0,有=1),T分期(T1=1,T2=2),組織學(xué)分型(鱗癌=1,腺癌=2,小細(xì)胞癌=3)。
判別分析是對若干個指標(biāo)的觀測結(jié)果判定其應(yīng)屬于哪一類的統(tǒng)計學(xué)方法,其在醫(yī)學(xué)領(lǐng)域有著廣泛的應(yīng)用。
Bayes判別:當(dāng)對各類別的比例分布情況有一定先驗信息,就可以利用這些先驗信息得到相關(guān)類別的判別系數(shù)。它的基本思想是認(rèn)為所有P個類別都是空間中互斥的子域,每個觀測都是空間中的一點。它在考慮先驗概率的前提下利用Bayes公式,按照一定的準(zhǔn)則構(gòu)造一個判別函數(shù),分別計算該樣品落入各個子域的概率,所有概率中最大的一類就被認(rèn)為是該樣品所屬類別[3]。
Bayes公式:
P(BkA)=P(ABk)P(A)=P(Bk)P(ABk)∑ni=1P(Bi)P(ABi)
判別函數(shù)的形式為:
Y=a1X1+a2X2+…+anXn
式中:Y為判別指標(biāo);X1,X2,…,Xn為反映研究對象特征的變量,a1,a2,…,an為各變量系數(shù),也稱判別系數(shù)。
判別函數(shù)效果的驗證方法:
(1) 自身驗證
即將訓(xùn)練樣本依次帶入判別函數(shù),來評測錯判情況是否嚴(yán)重。
(2) 交叉驗證
在建立判別函數(shù)時依次去掉1例,然后用建立起來的判別函數(shù)對該列進(jìn)行判別。
肺癌的臨床診斷病理分型判別模式結(jié)果如下:
Y1(鱗癌)=-29.961+8.260X1+9.580X2+5.489X3+2.650X4+1.138X5+3.205X6+3.975X7+7.864X8+4.434X9+1.361X10;
Y2(腺癌)=-28.684+9.490X1+9.079X2+4.739X3+2.534X4+2.352X5+3.470X6+3.827X7+6.819X8+3.539X9+1.458X10;
Y3(小細(xì)胞癌)=-28.955+8.281X1+10.248X2+4.464X3+3.074X4+1.330X5+2.293X6+5.803X7+6.989X8+3.875X9+1.442X10
經(jīng)Bayes判別分析后得出了肺癌各病理類型的判別函數(shù)。自我驗證的準(zhǔn)確率為57.4%,對鱗癌的驗證準(zhǔn)確率最高(59.5%),腺癌和小細(xì)胞癌分別為55.8%,57.1%。說明函數(shù)對肺癌分型診斷具有一定作用。由結(jié)果顯示函數(shù)實際效能不是很理想,這與該研究中的樣本數(shù)較少有關(guān),待進(jìn)一步擴(kuò)大樣本數(shù),收集詳盡的臨床相關(guān)資料以校正、完善該模型,進(jìn)一步提高診斷的準(zhǔn)確率。
診斷病理分型判別模式驗證結(jié)果如表1所示,自身驗證結(jié)果:正確率為57.4%;交叉驗證結(jié)果為52.5%。
由于該次研究采集的小細(xì)胞癌數(shù)量較少,用于模式識別分類的小細(xì)胞癌樣本數(shù)量不足,故在后續(xù)的分類方法中只對腺癌和鱗癌進(jìn)行分型對比,來比較和分析幾種分類器在肺癌分型中的特點。
1.3 特征優(yōu)選與分類
Logistic回歸屬于概率型非線性回歸,它是研究┒分類觀察結(jié)果與一些影響因素之間關(guān)系的一種多變量分析方法。Logistic回歸用途極為廣泛,幾乎已形成了醫(yī)學(xué)中最常用的分析方法,將以上10個客觀指標(biāo)的不同病理類型的特征差異采用卡方檢驗,對其進(jìn)行單因素指標(biāo)分析,P
利用所建立的Logistic回歸模型對所有樣本進(jìn)行診斷測試如表2所示,診斷的腺癌正確率為76.9%(40/52),鱗癌的正確率為69%(29/42),總的正確率為73.4%(69/94)。用SPSS 11.5軟件進(jìn)行Logistic回歸分析得到腺、鱗癌之間差異性最大的4個特征,分別為性別(P=0.001)、胸痛(P=0.028)、吸煙(P=0.043)、大小(P=0.046)。以此作為模式識別分類的樣本特征。
表2 Logistic回歸模型對樣本的測試結(jié)果
ObservedPredicted
ResultsPercentage
1.002.00Correct
Results
1.00291369.0
2.00124076.9
Overall Percentage73.4
人工神經(jīng)網(wǎng)絡(luò)(ANN)是現(xiàn)代生物學(xué)研究人腦組織所取得的成果基礎(chǔ)上提出來的,用大量簡單的神經(jīng)元廣泛連接組成的復(fù)雜網(wǎng)絡(luò)來模擬人類大腦神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和行為,能夠模擬人腦的結(jié)構(gòu)以及記憶和處理信息的方式,具有自學(xué)習(xí)、自適應(yīng)的特點能夠任意逼近非線性函數(shù),廣泛應(yīng)用于模式識別和分類等領(lǐng)域[5]。ANN模型拓?fù)浣Y(jié)構(gòu)分3層:輸入層、隱含層和輸出層,輸入層包含4個神經(jīng)元,分別對應(yīng)由卡方檢驗進(jìn)行單因素指標(biāo)分析P
支持向量機(jī)是有Vapnik提出的一種新興的模式識別分類方法[7-8],它最常用于解決兩類模式識別問題[9]。支持向量機(jī)方法是一種基于結(jié)構(gòu)風(fēng)險最小化原理,針對小樣本、以統(tǒng)計學(xué)習(xí)理論為基礎(chǔ)的一種優(yōu)秀學(xué)習(xí)算法。即使是由有限訓(xùn)練樣本得到的解,在求解問題時仍能得到較小的誤差。從線性可分模式的情況看,它的主要思想就是建立一個超平面作為決策面,該決策面不但能夠?qū)⑺杏?xùn)練樣本正確分類,而且使訓(xùn)練樣本中離分類面最近的點到分類面距離最大。圖1給出了線性可分模式下二維輸入空間中最優(yōu)超平面的幾何結(jié)構(gòu)。其中實心點和空心點代表兩類樣本,H為分類線,H1,H2分別為過各類中離分類線最近的樣本且平行于分類線的直線,它們之間的距離叫做分類間隔。此時,H1,H2上的點距分類線H的距離均為1/w,分類間隔[10]為2/w。
圖1 二維輸入空間中最優(yōu)超平面的幾何結(jié)構(gòu)圖
在此使用libsvm軟件包對腺、鱗癌的樣本進(jìn)行訓(xùn)練和測試,測試樣本各選10例,其余的74例都作為訓(xùn)練樣本。樣本為所選的經(jīng)Logistic回歸分析得出差異性最大的性別、胸痛、腫塊大小和吸煙與否4項作為訓(xùn)練的特征。在此設(shè)定腺癌為-1,鱗癌為1,即輸出向量為[-1,1],核函數(shù)為徑向基核函數(shù),RBF=0.5,迭代次數(shù)41,共找到支持向量61個,測試正確率為14/20即70%,正確率要高于神經(jīng)網(wǎng)絡(luò)的測試結(jié)果。
2 結(jié) 語
神經(jīng)網(wǎng)絡(luò)是基于風(fēng)險最小化為網(wǎng)絡(luò)優(yōu)化目標(biāo),是在樣本無窮大時的漸進(jìn)理論,支持向量機(jī)是基于結(jié)構(gòu)風(fēng)險最小化原理。針對小樣本,以統(tǒng)計學(xué)理論基礎(chǔ)的學(xué)習(xí)算法,由于兩者在理論基礎(chǔ)和優(yōu)化目標(biāo)以及學(xué)習(xí)算法方面的不同,導(dǎo)致兩者的逼近能力、泛化能力以及適用范圍存在差異。
通過利用神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)對腺、鱗癌分型的診斷研究表明:
(1) 神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)方法都能實現(xiàn)對腺、鱗癌的分型,并得到較高的診斷正確率;
(2) 在小樣本情況下,支持向量機(jī)比神經(jīng)網(wǎng)絡(luò)具有更強(qiáng)的泛化能力,更適用于腺、鱗癌的診斷。
參考文獻(xiàn)
[1]邊肇棋,張學(xué)工.模式識別[M].北京:清華大學(xué)出版社,2000.
[2]胡南均.109例肺癌的病理與臨床及CT相關(guān)性分析[D].吉林:吉林大學(xué),2008.
[3]王樂三.SPSS在醫(yī)學(xué)科研中的應(yīng)用[M].北京:化學(xué)工業(yè)出版社,2007.
[4]陳廣,陳景武.Logistic回歸分析的判別預(yù)測功能及其應(yīng)用[J].數(shù)理醫(yī)藥學(xué)雜志,2007,20(3):280-281.
[5]陳永鋒.基于仿生模式識別的孤立性肺結(jié)節(jié)診斷研究[D].重慶:重慶大學(xué),2007.
[6]董長虹.Matlab神經(jīng)網(wǎng)絡(luò)與應(yīng)用[M].2版.北京:國防工業(yè)出版社,2007.
[7]WANG L P. Support vector machine:theory and application[M]. New York: Springer Verlag, 2005: 1-66.
[8]劉露,劉宛予,楚春雨,等.胸部CT圖像中孤立性肺結(jié)節(jié)良惡性快速分類[J].光學(xué)精密工程,2009,17(8):2062-2068.
關(guān)鍵詞:模式識別;神經(jīng)網(wǎng)絡(luò);感知器;權(quán)值
中圖分類號: TP183 文獻(xiàn)標(biāo)志碼: A 文章編碼:2095-2163(2015)03-
Perceptron Network Weights Calculation and MATLAB Simulation in Pattern Recognition
ZHANG Guangjian
(1 Department of Information Engineering, Sichuan College of Architectural Technology,Deyang Sichuan 618000, China;2 Institute of Intelligent Computing, Sichuan College of Architectural Technology, Deyang Sichuan 618000, China)
Abstract:As the perceptron neural network pattern recognition, constructing the network model takes a very important parameters, which can be used by manual calculation, and can also carry out the training simulation obtained by MATLAB neural network toolbox. The paper uses two weights for building the classifier network model, and compares test results of the pattern recognition model.It is known that for the recognition rate of the samples tested, the weights are different,and in order to improve the generalization of the model, the construction of the network model need to test selects the optimal weights.
Keywords:Pattern Recognition; Neural Network; Perceptron; Weights
0 引 言
人工神經(jīng)網(wǎng)絡(luò)[1](artificial neural network,ANN),簡稱神經(jīng)網(wǎng)絡(luò)(neural network,NN),是一種對人腦功能實行模擬的簡化模型結(jié)構(gòu),是一種功能型的數(shù)學(xué)模型(計算模型),可完成科學(xué)計算,并具有強(qiáng)大的處理問題能力。神經(jīng)網(wǎng)絡(luò)是由大量的人工神經(jīng)元相互連接而成的信息處理系統(tǒng),能夠基于外界信息的引發(fā)改變內(nèi)部結(jié)構(gòu),因而屬于一種自適應(yīng)系統(tǒng)。現(xiàn)代神經(jīng)網(wǎng)絡(luò)則是一種非線性統(tǒng)計性數(shù)據(jù)建模工具,常用來對輸入和輸出間的復(fù)雜關(guān)系進(jìn)行建模,或用來探索數(shù)據(jù)的關(guān)聯(lián)模式。
1943年,美國神經(jīng)生理學(xué)家McCulloch和Pitts提出的第一個神經(jīng)網(wǎng)絡(luò)模型M-P模型,開創(chuàng)了人工智能的研究工作,奠定了神經(jīng)網(wǎng)絡(luò)的發(fā)展基礎(chǔ)。其中的感知器(Perceptron)則是由美國計算機(jī)科學(xué)家羅森布拉特(Frank Rosenblatt)于1957年提出的。
具體來說,神經(jīng)網(wǎng)絡(luò)是一種運算模型[2],是由大量的節(jié)點(或稱“神經(jīng)元”,或“單元”)及其間的相互聯(lián)接構(gòu)成。每個節(jié)點代表一種特定的輸出函數(shù),稱為激勵函數(shù)(activation function)。每兩個節(jié)點間的連接均表示對于通過該連接信號的加權(quán)值,稱之為權(quán)重(weight),也就相當(dāng)于人工神經(jīng)網(wǎng)絡(luò)的記憶。此外的網(wǎng)絡(luò)輸出則是依據(jù)網(wǎng)絡(luò)的連接方式、權(quán)重值(權(quán)值)和激勵函數(shù)的不同而各不相同。綜合論述可得,網(wǎng)絡(luò)自身通常都是對自然界某種算法或者函數(shù)的逼近,也可能是對一種邏輯策略的表達(dá)。因此,為解決模式識別問題創(chuàng)建的網(wǎng)絡(luò)模型,若選用最優(yōu)權(quán)值,就會極大地提高模式識別率。
1 感知器及學(xué)習(xí)算法
神經(jīng)網(wǎng)絡(luò)中,感知器神經(jīng)網(wǎng)絡(luò)[3]是一種典型的分層結(jié)構(gòu),信息從輸入層進(jìn)入網(wǎng)絡(luò)后,將逐層向前傳遞至輸出層。單層感知器是一個具有一層神經(jīng)元、采用閾值激活函數(shù)的前向網(wǎng)絡(luò)。通過對網(wǎng)絡(luò)權(quán)值的訓(xùn)練,可以使感知器對一組輸入矢量的響應(yīng)完成結(jié)果為0或1的目標(biāo)輸出,從而實現(xiàn)對輸入矢量分類的目的。沒有反饋或競爭的簡單神經(jīng)元感知器模型如圖1 所示。
圖1 一個單一神經(jīng)元的感知器模型
Fig.1 A single neuron perceptron model
在感知器學(xué)習(xí)算法[4]中,設(shè)輸入向量 ,相應(yīng)的權(quán)值向量 ,對一個輸入模式 的網(wǎng)絡(luò)輸入 為
(1)
根據(jù)閾值函數(shù)產(chǎn)生一個輸出 為:
(2)
感知器學(xué)習(xí)中,設(shè)t為目標(biāo)輸出,使用Hebbian學(xué)習(xí),其誤差公式為:
(3)
對任何新權(quán)值,具體計算公式為:
(4)
對于誤差E的三種可能情況,新權(quán)值的調(diào)整公式為:
(5)
在公式(5)中, 是新的調(diào)整權(quán)值, 是前次或者初始權(quán)值; 是輸入向量; 是學(xué)習(xí)率,且是一個常數(shù), 。精準(zhǔn)快捷地確定 值,將直接影響對后期的網(wǎng)絡(luò)學(xué)習(xí)訓(xùn)練時間。 2 手工計算權(quán)值
樣本集如表1所示。其中 x1,x2為兩個輸入,t為期望目標(biāo)輸出。感知器分類器的任務(wù)是將表1所示的二維模式進(jìn)行分類。
表1 分類數(shù)據(jù)
Tab.1 Classification of samples
0.3,0.7 1
-0.6,0.3 0
-0.1,-0.8 0
0.1,-0.45 1
樣本點如圖2所示。
圖2 輸入向量與期望響應(yīng)樣本圖
Fig.2 Input vector and the desired response sample figure
根據(jù)文獻(xiàn)[2]的推理,假定 ,其中, 是學(xué)習(xí)率, 為網(wǎng)絡(luò)初始權(quán)值。權(quán)值調(diào)整過程具體如下。
(0.3)=0.95
=-0.15
調(diào)整后的權(quán)值,繼續(xù)計算第二組樣本數(shù)據(jù) 。
如果分類正確,繼續(xù)使用該組權(quán)值計算下一組數(shù)據(jù);分類錯誤,即需應(yīng)用公式(5)的規(guī)則進(jìn)行權(quán)值調(diào)整,直到最終獲得一組權(quán)值w=[1.05 0.025],完成對全部樣本進(jìn)行的正確分類。為此,根據(jù)權(quán)值和樣本對感知器網(wǎng)絡(luò)進(jìn)行分類訓(xùn)練,其相應(yīng)的分類結(jié)果如圖3所示。
圖3樣本分類圖
Fig.3 Sample classification map
3 MATLAB訓(xùn)練仿真
MATLAB神經(jīng)網(wǎng)絡(luò)工具箱(Neural Network Tool)[5],為神經(jīng)網(wǎng)絡(luò)提供了一種高效、集成的仿真手段,通過該工具箱,可以對神經(jīng)網(wǎng)絡(luò)進(jìn)行設(shè)計、訓(xùn)練、可視化以及仿真。
使用MATLAB R2013a 的神經(jīng)網(wǎng)絡(luò)工具箱函數(shù),設(shè)置p為輸入向量,t為期望目標(biāo)向量。
p= [0.3 -0.6 -0.1 0.1;
0.7 0.3 -0.8 -0.45];
t= [1 0 0 1];
net =newp(minmax(p),1);
網(wǎng)絡(luò)傳遞函數(shù)指定為硬限值函數(shù)HARDLIM, 學(xué)習(xí)函數(shù)指定為LEARNP。創(chuàng)建如圖4所示的感知器神經(jīng)網(wǎng)絡(luò)模型。
圖4 生成的感知器網(wǎng)絡(luò)模型
Fig.4 Perceptron network model generation
使用命令net=train(net,p,t)進(jìn)行網(wǎng)絡(luò)訓(xùn)練,使用sim(net,p)進(jìn)行仿真,得到輸出向量為,偏值為b=0。使用plotpc(net.iw{1,1},net.b{1}) 命令在樣本中繪制分類線,如圖5所示,從圖中可以看出分類線能對輸入樣本完全分類。
圖5 訓(xùn)練后的網(wǎng)絡(luò)對輸入樣本的分類
Fig.5 Classification of the input sample after network training
4 網(wǎng)絡(luò)測試[6]
通過樣本訓(xùn)練得到的網(wǎng)絡(luò),但是測試樣本的準(zhǔn)確率卻未必會高。一個性能良好的網(wǎng)絡(luò)應(yīng)該具有優(yōu)秀的泛化能力。首先輸入樣本數(shù)據(jù)進(jìn)行訓(xùn)練,通過修正權(quán)值來減小誤差得到擬合程度很高的網(wǎng)絡(luò)模型,而后的網(wǎng)絡(luò)測試則是用另外的樣本數(shù)據(jù)去測試網(wǎng)絡(luò)的性能。
對于兩種權(quán)值建立的網(wǎng)絡(luò)模型,通過加入測試樣本數(shù)據(jù)進(jìn)行分類測試,測試樣本為:
p1=[ 0.4 -0.5 0 0.2 ; 0.8 0.4 -0.7 -0.35 ]
使用MATLAB的sim(net,P1) 函數(shù)完成對輸入樣本的測試。
對于手工計算獲得的權(quán)值W=[1.05,0.025],加入測試樣本集后,分類結(jié)果如圖6所示。
圖6測試樣本分類(手工計算)
Fig.6 Test sample classification (manual calculation)
對于使用MATLAB計算機(jī)仿真訓(xùn)練獲得的權(quán)值W=[1.8 0] ,加入測試樣本集,分類結(jié)果如圖7所示。
圖7測試樣本分類(MATLAB)
Fig.7 The test sample classification (MATLAB)
對比圖6和圖7,可以清楚看到根據(jù)兩種方式獲得的權(quán)值,建立兩種感知器神經(jīng)網(wǎng)絡(luò)模型,均能對樣本進(jìn)行分類,但卻同時可知圖6的網(wǎng)絡(luò)模型可對測試樣本集進(jìn)行更見成效的分類。
5 結(jié)束語
感知器神經(jīng)網(wǎng)絡(luò)只能解決線性可分的模式分類問題,在應(yīng)用上有一定的局限性,但對于線性可分問題建立的模型,總能通過訓(xùn)練,在有限的循環(huán)次數(shù)內(nèi)找到網(wǎng)絡(luò)權(quán)值,使網(wǎng)絡(luò)達(dá)到期望的輸出,進(jìn)而完成模式分類。通過對同一模型的手工計算和MATLAB訓(xùn)練,得出的網(wǎng)絡(luò)權(quán)值并不相同,但都可以對網(wǎng)絡(luò)進(jìn)行分類,只是對于使用MATLAB進(jìn)行的計算機(jī)訓(xùn)練仿真,所獲取的權(quán)值與計算精度、連同使用的學(xué)習(xí)函數(shù)及傳遞函數(shù)方面將會有一定的影響。而且,選取不同權(quán)值建立的模型,在泛化能力上也將存在一定差異。作為感知器分類器的模型建立,需要反復(fù)比對找到最優(yōu)的權(quán)值,這樣建立的模型在泛化能力上才會具有更好的適應(yīng)性。
參考文獻(xiàn):
[1] (美)Martin T. Hagan等,著.神經(jīng)網(wǎng)絡(luò)設(shè)計[M]. 戴葵等,譯.北京:機(jī)械工業(yè)出版社,2002.
[關(guān)鍵詞] 模式識別 風(fēng)險分類 適用性
一、引言
貸款風(fēng)險分類,就是根據(jù)借款人的當(dāng)前經(jīng)營情況和違約跡象來判斷其按時還款的可能性并給予風(fēng)險等級評價,是銀行綜合了借款人財務(wù)、非財務(wù)因素,對貸款未來安全收回可能性的評價。如何判斷借款人的每個因素對貸款償還的影響程度,以及如何將上述各種因素定性和定量分析歸納匯總,作出全面科學(xué)的風(fēng)險評定是貸款風(fēng)險分類操作的難點和關(guān)鍵。
在現(xiàn)代信用風(fēng)險度量模型出現(xiàn)以前,測度信貸信用風(fēng)險的方法主要有:專家制度法、評級法和信用評分法。近年來,一些大的金融機(jī)構(gòu)相繼構(gòu)建了比較規(guī)范的、有重大影響的四大信用風(fēng)險度量模型:JP 摩根的Credit Metrics 方法;KMV公司的KMV 模型;CSFP(Credit Suisse Financial Products) 的Credit Risk + 方法;麥肯錫公司的信用組合觀點模型(Credit portfolio View)。這四大信用風(fēng)險度量模型對中國銀行業(yè)都有一定的借鑒意義。模型最大的問題是任何一個模型都沒有全面考慮到借款人的道德風(fēng)險,還有借款人的具體情況,如銀行合同、貸款合同、擔(dān)保能力、借款期限等,而且由于經(jīng)濟(jì)制度、金融發(fā)展水平等方面的差異,因此,借用西方信用風(fēng)險模型應(yīng)慎重,我國應(yīng)用這些大型量化模型的條件還不成熟。
本文把貸款風(fēng)險分類看作是一個模式識別問題,在此框架下,就統(tǒng)計模式識別領(lǐng)域中最新使用的神經(jīng)網(wǎng)絡(luò)方法、分類樹法、以及支持向量機(jī)三種方法的建模思想、適用性進(jìn)行比較,并給出有關(guān)結(jié)論。
二、貸款風(fēng)險分類是一個模式識別問題
所謂模式識別,就是用計算機(jī)的方法來實現(xiàn)人對各種事物或現(xiàn)象的分析、描述、判斷和識別。目前我國實行的貸款風(fēng)險五級分類法(簡稱風(fēng)險分類),它是根據(jù)貸款對象的第一還款來源與第二還款來源共同特征(財務(wù)指標(biāo))或?qū)傩裕ǚ秦攧?wù)指標(biāo))進(jìn)行識別判斷而進(jìn)行分類的,其核心在于它以借款人的償還能力作為分類標(biāo)志。
貸款風(fēng)險分類的模式識別系統(tǒng)的精度及其正確性,主要取決于(1.3)式中的一些參數(shù)的估計的精度。訓(xùn)練時如果輸入模式樣本的類別信息是已知的,這時可以用“有監(jiān)督”的模式識別技術(shù),讓識別系統(tǒng)執(zhí)行一個合適的學(xué)習(xí)訓(xùn)練過程,把系統(tǒng)“教”成可使用各種適應(yīng)修改技術(shù)再去識別模式。如果采集到樣本模式是未知類別的,這時可用“無監(jiān)督的模式識別技術(shù),即必須通過系統(tǒng)的學(xué)習(xí)過程去得到其所屬的范疇。
三、模式識別技術(shù)的建模思路及其適用性分析
目前用于統(tǒng)計模式識別的方法很多,主要有判別分析法、回歸分析法、人工智能(專家系統(tǒng))、神經(jīng)網(wǎng)絡(luò)、決策樹法、K近鄰法、支持向量機(jī)等。本文僅就目前最為流行的人工神經(jīng)網(wǎng)絡(luò)、決策樹法、支持向量機(jī)三種非參數(shù)模式識別方法建模思路、適用性進(jìn)行比較分析。
1.神經(jīng)網(wǎng)絡(luò)模型(ANN)
(1)建模思路
人工神經(jīng)網(wǎng)絡(luò)(Artficial Neural Networks ANN )是一種具有模式識別能力,自組織、自適應(yīng),自學(xué)習(xí)特點的計算方法。神經(jīng)網(wǎng)絡(luò)模型建模思路是,首先找出影響分類的一組因素,作為ANN的輸入,然后通過有導(dǎo)師或無導(dǎo)師的訓(xùn)練擬合形成ANN風(fēng)險分析模型。對于新的樣本輸入(即一組影響因素值),該模型可產(chǎn)生貸款風(fēng)險的判別。
(2)適用性分析
神經(jīng)網(wǎng)絡(luò)的適用性首先表現(xiàn)為分類的準(zhǔn)確性比較高。特別是在測試數(shù)據(jù)為非線性關(guān)系的情況下,尤其如此;其次是神經(jīng)網(wǎng)絡(luò)有較強(qiáng)的適應(yīng)訓(xùn)練樣本變化的能力,當(dāng)訓(xùn)練樣本增加新的數(shù)據(jù)時,能夠記憶原有的知識,根據(jù)新增的數(shù)據(jù)作恰當(dāng)?shù)恼{(diào)整,使之表示的映射關(guān)系能夠更好的刻畫新樣本所含的信息。這一點不僅使得神經(jīng)網(wǎng)絡(luò)具有較強(qiáng)的適應(yīng)樣本變化的能力,還使它具有動態(tài)刻畫映射關(guān)系能力,也克服了線性判別分析方法的靜態(tài)特點;再次是其具有魯棒性。神經(jīng)網(wǎng)絡(luò)對于樣本的分布、協(xié)方差等沒有要求,對樣本中存在的噪音數(shù)據(jù)、偏差數(shù)據(jù)不敏感。監(jiān)管部門在面對眾多監(jiān)管對象銀行時, 可以根據(jù)其報表中的監(jiān)管指標(biāo)與監(jiān)控指標(biāo)的輸出結(jié)果,迅速、準(zhǔn)確地判斷商業(yè)銀行的經(jīng)營狀況,就可以輔助以現(xiàn)場檢查的手段,對商業(yè)銀行進(jìn)行適當(dāng)、適時的干預(yù)。
神經(jīng)網(wǎng)絡(luò)方法的主要缺點一是對樣本的依賴性過強(qiáng),對樣本提出了很高的要求。因為它很少有人的主觀判斷因素的介入;二是解釋功能差。它僅能給出一個判斷結(jié)果,而不能告訴你為什么;三是在神經(jīng)網(wǎng)絡(luò)方法中輸入特征變量的確定出關(guān)鍵指標(biāo)問題時,需要依賴于其他的統(tǒng)計分析方法;四是是樣本分成多少個種類,這些問題都是神經(jīng)網(wǎng)絡(luò)方法無法獨自解決的,要依賴于其他方法;五是神經(jīng)網(wǎng)絡(luò)的訓(xùn)練速度慢且極易收斂于局部極小點,推廣能力差,以及容易出現(xiàn)“過學(xué)習(xí)”現(xiàn)象。
2.分類樹方法(CART)
(1)建模思路
分類樹方法(CART)是一種由計算機(jī)實現(xiàn),基于統(tǒng)計理論的非參數(shù)識別方法。其建模思路是:在整體樣本數(shù)據(jù)的基礎(chǔ)上,生成一個多層次、多節(jié)點的樹,按廣度優(yōu)先建立直到每個葉節(jié)點包含相同的類為止,以充分反映數(shù)據(jù)間的聯(lián)系。然后對其進(jìn)行刪減,參照一定規(guī)則從中進(jìn)行選擇適當(dāng)大小的樹,用于對新數(shù)據(jù)進(jìn)行分類即建造最大樹,對樹刪減,選擇適當(dāng)?shù)臉溆糜谛聵颖痉诸悺?/p>
(2)適用性分析
分類樹方法在銀行貸款風(fēng)險分類中的適用性首先在于通過借款人經(jīng)營狀況的變化及其破產(chǎn)的可能性的判斷,來估計其違約的可能性,進(jìn)而來推測該借款人持有的貸款風(fēng)險程度。它不但具有哲學(xué)上的二分法的優(yōu)點,而且其分類標(biāo)準(zhǔn)的選擇也包含著經(jīng)濟(jì)理論上的合理性。反映申請者信用關(guān)系中各項指標(biāo)之間的相關(guān)性是應(yīng)用分類樹于信貸信用分類的有利條件,它可以有效地利用定性變量進(jìn)行分類。
分類樹的缺陷表現(xiàn)在:一是計算量大;二是在一些連續(xù)型定量變量的處理上,分類樹就顯得有些力不從心;三是對結(jié)點屬性的判定上,往往以葉結(jié)點中所含多數(shù)樣本的屬性來決定該葉結(jié)點的屬性。但如果碰到訓(xùn)練樣本中某種樣本(譬如好樣本,占大多數(shù))。此時分類的結(jié)果很可能是幾乎每個葉結(jié)點都是好樣本占多數(shù),或出現(xiàn)一些好壞樣本的個數(shù)相當(dāng)?shù)娜~結(jié)點。于是就可能出現(xiàn)幾乎所有的葉結(jié)點都是好樣本集合,或其中一些結(jié)點無法判斷。無論哪種情況出現(xiàn),都將導(dǎo)致對壞樣本的辨別率降低,進(jìn)而導(dǎo)致分類樹的效率降低。
3.支持向量機(jī)模型(SVM)
(1)建模思路
(2)適用性分析
由于支持向量機(jī)出色的學(xué)習(xí)性能、泛化性能、良好表現(xiàn)和所估計的參數(shù)少等特點,能夠較好地解決小樣本、高維數(shù)、非線性、局部極小等問題。鑒于支持向量機(jī)的諸多優(yōu)點,國外學(xué)者 Van.Gestel(2003)將支持向量機(jī)應(yīng)用到信貸風(fēng)險分類與評估領(lǐng)域,并與神經(jīng)網(wǎng)絡(luò)及Logistic回歸相比較,得到了較好的結(jié)果。同時利用支持向量機(jī),能提高學(xué)習(xí)機(jī)的泛化能力,能成功地解決風(fēng)險分類、函數(shù)逼近和時間序列預(yù)測等方面,對構(gòu)建貸款分類模型也具有重要的實踐意義。
但SVM是解決一個二分類問題,現(xiàn)實中遇到的大都是多分類問題,如支持向量機(jī)無法解決信貸風(fēng)險的五級分類問題。另外,影響支持向量機(jī)模型分類能力的參數(shù)選擇存在人為確定的主觀性等。
四、結(jié)論
從信貸風(fēng)險管理角度看,信貸風(fēng)險分類與量化管理是一個必然趨勢。為了提高貸款分類的準(zhǔn)確性,必須將上述兩種或兩種以上的方法結(jié)合起來使用,取長補(bǔ)短。同時,中國銀行業(yè)在運用這些相對復(fù)雜的預(yù)測技術(shù)時,不僅要根據(jù)國內(nèi)的實際情況和銀行業(yè)自身發(fā)展階段,科學(xué)地制定信貸風(fēng)險管理流程,還要加強(qiáng)人才培養(yǎng)和數(shù)據(jù)庫建設(shè),盡可能地運用信貸風(fēng)險管理先進(jìn)技術(shù)將信貸風(fēng)險損失降到最低限度,實現(xiàn)可持續(xù)發(fā)展。
參考文獻(xiàn):
[1]J.P. Morgan.Credit Metrics―Technical Document.1997, 4:2
[2]KMV.Global Correlation Factor Structure. San Francisco:KMV Corporation.1996,8 :16~17
[3]Credit Suisse First Boston. Credit Risk+, A Credit Risk management Framework. Credit Suisse First Boston Internation, 1997
[4]McKinsey and Co, Credit Portfolio View. New York, Mckinsey and Co.1997
[5]曹道勝等:商業(yè)銀行信用風(fēng)險模型的比較及其應(yīng)用[J].金融研究,2006年第10期
[6]王振民,中國商業(yè)銀行貸款風(fēng)險分析[D].天津大學(xué)博士論文,2005年5月,P33