特征抽取步驟是模式識(shí)別系統(tǒng)的核心和關(guān)鍵步驟之一,該步驟直接影響到系統(tǒng)性能的優(yōu)劣。作為模式識(shí)別特征抽取領(lǐng)域的一次技術(shù)革命,核方法具有將線性不可分離數(shù)據(jù)變換為線性可分離數(shù)據(jù)的優(yōu)越性能,從而為獲得高分類正確率提供保障。核方法在模式識(shí)別、機(jī)器學(xué)習(xí)、計(jì)算機(jī)視覺(jué)、工業(yè)自動(dòng)化與圖像處理等領(lǐng)域的應(yīng)用方興未艾。
作為國(guó)內(nèi)首部專門研究核方法的專著,《模式識(shí)別中的核方法及其應(yīng)用》力圖繞開(kāi)晦澀的理論分析,從應(yīng)用的角度對(duì)核方法及其優(yōu)化進(jìn)行形象而直觀的闡述,并結(jié)合人臉識(shí)別、性別分類、字符識(shí)別等應(yīng)用實(shí)例以及機(jī)器學(xué)習(xí)領(lǐng)域的基準(zhǔn)數(shù)據(jù)集進(jìn)行介紹!赌J阶R(shí)別中的核方法及其應(yīng)用》在核方法的基礎(chǔ)上,較為詳細(xì)地總結(jié)了作者近幾年的研究成果。全書共10章,主要內(nèi)容包括:核方法簡(jiǎn)介,核方法目標(biāo)函數(shù)與核方法改進(jìn),特征抽取結(jié)果的逼近與核方法改造,訓(xùn)練集的分析與核方法改造,聯(lián)合不同核方法的特征抽取方案,基于特征相關(guān)分析的核方法以及核函數(shù)參數(shù)選擇問(wèn)題,各核方法間理論聯(lián)系的分析,以及基于核的非線性特征抽取框架。
《模式識(shí)別中的核方法及其應(yīng)用》既可作為計(jì)算機(jī)科學(xué)與技術(shù)、信息技術(shù)、自動(dòng)化、電子工程等專業(yè)的科研用書和補(bǔ)充教材,還適合從事模式識(shí)別、生物特征識(shí)別、機(jī)器學(xué)習(xí)、計(jì)算機(jī)視覺(jué)、工業(yè)自動(dòng)化、圖像處理等研究的技術(shù)人員參考使用。
核方法是20世紀(jì)90年代模式識(shí)別與機(jī)器學(xué)習(xí)領(lǐng)域興起的一場(chǎng)技術(shù)性革命。在繼承非線性方法優(yōu)點(diǎn)的基礎(chǔ)上,核方法以清晰、簡(jiǎn)潔的形式為研究者指出了一條在模式識(shí)別與機(jī)器學(xué)習(xí)領(lǐng)域應(yīng)用非線性技術(shù)的道路。其優(yōu)勢(shì)在于允許研究者在原始數(shù)據(jù)對(duì)應(yīng)的高維空間使用線性方法來(lái)分析和解決問(wèn)題,且能有效地規(guī)避“維數(shù)災(zāi)難”。在此之前,盡管研究者們很早就認(rèn)識(shí)到將數(shù)據(jù)映射到高維空間有助于提高數(shù)據(jù)的可分性,但由于求解非線性映射的計(jì)算代價(jià)問(wèn)題,一直沒(méi)有找到好的實(shí)現(xiàn)途徑。在模式識(shí)別的特征抽取領(lǐng)域,核方法最具特色之處在于其雖等價(jià)于先將原數(shù)據(jù)通過(guò)非線性映射變換到一高維空間后的線性特征抽取手段,但其不需要執(zhí)行相應(yīng)的非線性變換,也不需知道究竟選擇何種非線性映射關(guān)系。與此同時(shí),研究者可通過(guò)選擇不同的核函數(shù)及其參數(shù)來(lái)調(diào)節(jié)相應(yīng)的特征抽取效果。雖然具體的非線性映射關(guān)系是未知的,但由于核函數(shù)是非線性映射關(guān)系的具體反映(核函數(shù)指代特征空間中兩個(gè)樣本向量間的內(nèi)積),通過(guò)對(duì)核函數(shù)及其參數(shù)進(jìn)行選擇即可達(dá)到對(duì)非線性映射關(guān)系進(jìn)行優(yōu)化的目的。目前,核方法已大量應(yīng)用到機(jī)器學(xué)習(xí)、模式識(shí)別、生物特征識(shí)別、生物信息學(xué)、數(shù)據(jù)挖掘、機(jī)器視覺(jué)、圖像去噪、工業(yè)自動(dòng)化以及機(jī)械故障診斷等領(lǐng)域中。
盡管核方法相對(duì)普通的非線性方法具有突出的優(yōu)勢(shì),但在實(shí)際應(yīng)用中仍然面臨大訓(xùn)練集下實(shí)現(xiàn)效率低甚至不能實(shí)時(shí)應(yīng)用的缺點(diǎn)。眾所周知,利用線性方法對(duì)一個(gè)樣本抽取特征時(shí),只需將該樣本投影到訓(xùn)練階段得到的一個(gè)確定的變換矩陣(一組變換向量)上即可。而核方法對(duì)一個(gè)樣本進(jìn)行特征抽取時(shí),需計(jì)算該樣本與所有訓(xùn)練樣本之間的核函數(shù)。因此,核方法的特征抽取效率會(huì)隨著訓(xùn)練樣本集的增大而下降。
第1章 引論
1.1 解決模式識(shí)別問(wèn)題的技術(shù)框架
1.2 變換技術(shù)與特征抽取
1.3 非線性變換與特征抽取
1.4 核方法的發(fā)展及應(yīng)用
1.4.1 核方法的發(fā)展
1.4.2 核方法的應(yīng)用
1.5 本書所關(guān)注的問(wèn)題
第2章 核方法簡(jiǎn)介
2.1 KMSE及其改進(jìn)
2.1.1 MSE:KMSE的起源
2.1.2 KMSE的形式化描述
2.1.3 KMSE的改進(jìn)及方程表達(dá)
2.2 KPCA與特征抽取
2.2.1 PCA描述
2.2.2 PCA中核函數(shù)的引入
2.2.3 基于KPCA的特征抽取
2.3 核Fisher鑒別分析
2.3.1 FDA的思路及描述
2.3.2 KFDA的導(dǎo)出
2.3.3 KFDA的改進(jìn)及方程
2.3.4 基于KFDA及其改進(jìn)的特征抽取形式
2.4 SVM簡(jiǎn)介
2.5 核回歸
2.6 本章小結(jié)
第3章 核方法目標(biāo)函數(shù)及其優(yōu)化方法
3.1 Fisher準(zhǔn)則的變形形式
3.2 選擇顯著訓(xùn)練樣本的算法
3.3 分類實(shí)現(xiàn)
3.4 針對(duì)多類問(wèn)題的KFDA優(yōu)化方案
3.5 實(shí)驗(yàn)
3.5.1 基準(zhǔn)數(shù)據(jù)集實(shí)驗(yàn)結(jié)果
3.5.2 Yale人臉數(shù)據(jù)庫(kù)實(shí)驗(yàn)結(jié)果
3.5.3 性別分類實(shí)驗(yàn)結(jié)果
3.5.4 結(jié)論
3.6 本章小結(jié)
第4章 特征抽取結(jié)果的逼近與核方法改造
4.1 簡(jiǎn)單的數(shù)值逼近觀點(diǎn)及核方法改造
4.1.1 KMSE優(yōu)化方案及算法
4.1.2 KMSE及其優(yōu)化模型在多類問(wèn)題中的應(yīng)用
4.1.3 實(shí)驗(yàn)結(jié)果
4.1.4 結(jié)論
4.2 適用于KMSE優(yōu)化的一個(gè)特殊方法
4.2.1 節(jié)點(diǎn)的選擇
4.2.2 分析與討論
4.2.3 實(shí)驗(yàn)
4.2.4 小結(jié)
4.3 另一種數(shù)值分析的觀點(diǎn)
4.3.1 FKMSE算法
4.3.2 時(shí)間復(fù)雜度分析
4.3.3 實(shí)驗(yàn)
4.4 本章小結(jié)
第5章 訓(xùn)練集的分析及核方法改造
5.1 KMSE改進(jìn)思路
5.1.1 KMSE模型再分析
5.1.2 改進(jìn)KMSE的思路與算法
5.2 實(shí)驗(yàn)
5.3 本章 小結(jié)
第6章 聯(lián)合不同核方法的特征抽取方案
6.1 利用KPCA確定KMSE的節(jié)點(diǎn)
6.2 算法的進(jìn)一步分析
6.3 實(shí)驗(yàn)分析
6.4 本章小結(jié)
第7章 基于特征相關(guān)分析的核方法改進(jìn)
7.1 改進(jìn)思路及算法
7.2 改進(jìn)KMSE的理論分析
7.3 時(shí)間復(fù)雜度分析
7.4 實(shí)驗(yàn)分析
7.4.1 實(shí)驗(yàn)一
7.4.2 實(shí)驗(yàn)二
7.4.3 實(shí)驗(yàn)三
7.5 本章小結(jié)
第8章 核函數(shù)參數(shù)選擇
8.1 基于最小誤差的KMSE核參數(shù)選擇
8.1.1 最優(yōu)參數(shù)選擇方案的設(shè)計(jì)
8.1.2 實(shí)驗(yàn)
8.1.3 結(jié)論與討論
8.2 KDA的核函數(shù)參數(shù)選擇問(wèn)題
8.2.1 引言
8.2.2 最優(yōu)參數(shù)確定算法
8.2.3 實(shí)驗(yàn)
8.2.4 結(jié)論
8.3 選擇KMSE核參數(shù)的解析方法
8.4 本章小結(jié)
第9章 各核方法理論聯(lián)系及再分析
9.1 KPCA與KFDA間聯(lián)系分析
9.2 KMSE與其他核方法間的關(guān)聯(lián)分析
9.2.1 KMSE與KFDA間等效性討論
9.2.2 KMSE與LS-SVM等效性分析
9.3 核方法改進(jìn)的再探討
9.4 核方法研究動(dòng)態(tài)
9.5 小結(jié)
第10章 基于產(chǎn)生核的非線性特征抽取框架
10.1 引言
10.2 從函數(shù)到產(chǎn)生核
10.2.1 核的基本概念
10.2.2 依據(jù)函數(shù)得出產(chǎn)生核
10.3 產(chǎn)生核與GKPCA
10.3.1 KPCA的特征方程及其變形
10.3.2 GKPCA
10.3.3 GKPCA的一個(gè)等效實(shí)現(xiàn)方案
10.4 產(chǎn)生核與KFDA
10.4.1 KFDA回顧
10.4.2 GKFD
10.4.3 FMS-LDA
10.4.4 前文三方法的等效關(guān)系
10.4.5 兩類核相關(guān)的特征抽取方法
10.5 實(shí)驗(yàn)
10.6 本章小結(jié)
參考文獻(xiàn)
這些理論也為核方法的飛速發(fā)展奠定了基石。但線性方法有其固有的局限性,例如,異或問(wèn)題雖然簡(jiǎn)單,但是線性方法卻無(wú)力解決。
2.第二階段:一般非線性方法
可以說(shuō)非線性方法的模式識(shí)別應(yīng)用主要?dú)w功于神經(jīng)網(wǎng)絡(luò)研究的發(fā)展。美國(guó)生物物理學(xué)家Hopfield的研究成果以及Rumelhart等人提出的反向傳播學(xué)習(xí)算法糾等都為模式識(shí)別與機(jī)器學(xué)習(xí)領(lǐng)域的非線性革命貢獻(xiàn)了力量,F(xiàn)實(shí)世界存在大量的非線性可分問(wèn)題,非線性技術(shù)能將這些問(wèn)題變換為線性可分問(wèn)題,從而使這些問(wèn)題的分類變得非常容易。在模式識(shí)別問(wèn)題上取得的成功是非線性革命重要性的有力說(shuō)明。但這時(shí)候的非線性算法建立在不完全統(tǒng)計(jì)分析的基礎(chǔ)上,研究者對(duì)此類學(xué)習(xí)機(jī)的理解并不深刻,除了以上啟發(fā)式非線性方法,另一類非線性技術(shù)一般建立在非線性映射的基礎(chǔ)之上,而非線性映射的顯式求解相對(duì)于線性情況要復(fù)雜得多,不僅求解的計(jì)算效率比較低下,而且某些大規(guī)模的學(xué)習(xí)模型甚至不可解。
3.第三階段:核方法的引入
20世紀(jì)90年代中期,出現(xiàn)了基于核函數(shù)的模式識(shí)別方法。這種方法不僅使我們能高效地對(duì)數(shù)據(jù)分量間存在非線性關(guān)系的數(shù)據(jù)進(jìn)行模式分析,而且方法本身建立在嚴(yán)格的統(tǒng)計(jì)分析基礎(chǔ)之上,與線性統(tǒng)計(jì)分析方法一樣有著扎實(shí)的理論背景。總的來(lái)說(shuō),核方法有以下兩個(gè)優(yōu)勢(shì):一是它在線性與非線性學(xué)習(xí)機(jī)間架起了一座橋梁,可以通過(guò)核空間的線性模型來(lái)解決非線性問(wèn)題;二是引入核函數(shù)后借助于核技巧,使研究者不必顯式地進(jìn)行復(fù)雜的高維非線性映射。
目前關(guān)于核方法的研究熱點(diǎn)有以下幾個(gè)方面。
。1)降低核方法計(jì)算復(fù)雜度。支持向量機(jī)的應(yīng)用受限制的一個(gè)很重要原因是需要求解凸二次優(yōu)化問(wèn)題,對(duì)于大規(guī)模樣本的數(shù)據(jù)集,其計(jì)算具有較高的時(shí)間和空間復(fù)雜度。對(duì)于其他核方法來(lái)講,特征抽取效率也具有與訓(xùn)練樣本個(gè)數(shù)相關(guān),且訓(xùn)練樣本越多計(jì)算代價(jià)越大的缺點(diǎn)。因此,如何在不影響分類性能的前提下,降低計(jì)算復(fù)雜度、建立高效的基于核方法的特征抽。ㄗ儞Q)方法,成了核方法一個(gè)很重要的研究方向。
。2)核參數(shù)優(yōu)化。