論文:主分量分析和線性判別分析在分類問題中的應(yīng)用
【摘 要】對于維數(shù)較多的研究對象,為了研究的方便,總希望先將維數(shù)降低。主分量分析(PCA)和Fisher線性判別分析(FDA)是廣泛應(yīng)用于模式識別各個領(lǐng)域的兩種常用方法。本文先利用主分量分析,將原始數(shù)據(jù)維數(shù)降低,然后再利用Fisher線性判別分析將維數(shù)再次降低,得到低維的數(shù)據(jù),實驗結(jié)果表明了兩種方法結(jié)合的有效性。
【關(guān)鍵詞】主分量分析;Fisher線性判別;距離判別法
【Abstract】As to an object of multi dimension, we always hope to make its dimension reduced in order to facilitate the study on it。 Principal component analysis and Fisher linear discriminant analysis are two common methods widely used in various fields of pattern recognition。 This article reduced the dimension of original data, by the principal component analysis at first, and then use Fisher linear discriminant analysis to reduce the dimension once again, obtaining lower-dimensional data, finally experimental results demonstrated the effectiveness of two methods’ combination。
【Key words】Principle compoment analysis; Fisher linear discriminant analysis; A method of differentiating distances
引言
在生產(chǎn)p科研和日常生活中我們經(jīng)常會遇到判別分類問題,在這些問題中,已經(jīng)知道研究對象可以分為幾個類,而且對這些類別也已經(jīng)作了一些觀測,取得了一批樣本數(shù)據(jù)。 我們需要對這些數(shù)據(jù)進行處理,找到不同類別之間的顯著性區(qū)別和判別方法。
1 主分量分析和線性判別分析的原理
主分量分析的基本原理:把原來多個變量劃為少數(shù)幾個綜合指標的一種統(tǒng)計分析方法,是一降維處理技術(shù)。主分量分析的基本思想:主分量分析是設(shè)法將原來眾多具有一定相關(guān)性的指標(比如p個指標),重新組合成一組新的互相無關(guān)的綜合指標來代替原來的指標。通常數(shù)學(xué)上的處理就是將原來p個指標作線性組合,作為新的綜合指標 [3]。
Fisher線性判別分析的基本原理:將高維空間中的類映射到低維空間,并且要求在低維空間類與類之間較好區(qū)分,是一降維處理技術(shù)。Fisher線性判別分析的基本思想:對于多個類來講,我們希望類內(nèi)離散度越小越好,類間離散度越大越好。對于原始的類,我們想通過將其投影到低維空間,并且要求經(jīng)過投影后達到類內(nèi)離散度最小,類間離散度最大。在投影的過程中,如果投影到一維空間效果不是很好,我們可以將其維數(shù)增多[4]。
2 實例
現(xiàn)對三類品種的鳶尾屬(Iris)植物進行研究,希望通過研究鳶尾屬植物的幾個主要指標,可以將一個未知樣本進行歸類。對鳶尾屬植物的四個指標進行了統(tǒng)計。對統(tǒng)計數(shù)據(jù)作如下變換:
①對所有樣本數(shù)據(jù)X進行中心化標準化。
②對處理后的數(shù)據(jù)求解相關(guān)系數(shù)矩陣R得
、矍蠼釸的特征值λi和特征向量ei。
由上表可以看出,前三個特征值的累積貢獻率已達到99。485%,所以我們選取前三個特征值所對應(yīng)的特征向量為主成分,這樣我們就將四維空間降到三維空間。原始數(shù)據(jù)經(jīng)過主分量分析,位數(shù)降低,得到變換Y=X*E。
經(jīng)過主分量分析,原始數(shù)據(jù)已經(jīng)降到三維,我們將對得到的三維空間里的數(shù)據(jù)再次進行降維處理。我們選取各類中的前40個樣本代表該類進行研究。
、芊謩e計算出各類的.樣本均值mk和所有樣本的均值m
⑤計算類內(nèi)離散度矩陣Sw和類間離散度矩陣Sb
、抻嬎鉙b和Sw的廣義特征值和特征向量
、邔進行Fisher線性判別,得到變換Z=Y*W。
、嘤嬎憬(jīng)過變換后所得到的類的均值
通過主分量分析和Fisher線性判別,我們將樣本由四維空間降到一維空間。由上面的計算,我們可以得到公式Z=X*E*W。
隨機選取45個樣本得到樣本組x,在選取樣本時,前15個樣本是從第一類中抽取的,中間15個樣本是從第二類中抽取的,最后15個樣本是從第三類中抽取的。我們首先對需要判別的樣本進行變換, 然后分別計算這45個樣本到三類均值的距離
表2中加粗的數(shù)字表示該樣本距離某類均值距離最小,也就是樣本屬于這個類。判別結(jié)果為前15個樣本判為第一類,中間16個樣本判為第二類,最后14個樣本判為第三類。其中第31個樣本通過距離判別判為第二類,而這個樣本是從第三類中抽取的;其他樣本判別均正確。在這次判別中,錯誤率為1/45,我們認為判別是比較合理的。對所有的樣本都進行分類判別,其錯誤率為4/150,我們認為對數(shù)據(jù)的處理以及距離判別的方法是比較合理的。
3 小結(jié)
我們在研究鳶尾屬植物的三個品種時,首先運用主分量分析,在這個過程中維數(shù)降低了一維,但我們保留了99。485%的原有信息,可以說這一數(shù)據(jù)變換很有意義。在主分量分析之后,我們再運用Fisher線性判別分析,將數(shù)據(jù)進行投影,投影到一維空間。然后我們選取了45個樣本進行分類判別時,判別結(jié)果比較理想,從而驗證了兩次降維處理的有效性和距離判別的可行性。
【論文:主分量分析和線性判別分析在分類問題中的應(yīng)用】相關(guān)文章:
大跨度橋梁非線性分析的論文04-27
垃圾分類現(xiàn)狀分析論文08-03
線性和非線性的區(qū)別08-20
WEBVR和RIA技術(shù)在新媒體中的應(yīng)用分析論文06-12
“擴倍法”在小學(xué)數(shù)學(xué)解題中的應(yīng)用論文06-22
數(shù)學(xué)應(yīng)用意識分析的論文06-22
分析非線編輯機的應(yīng)用論文06-12