《模式識別》主要介紹統(tǒng)計模式識別和結構模式識別的相關內容。全書由7章組成,第1章為緒論,第2章介紹統(tǒng)計模式識別中的幾何方法,著重介紹特征空間的概念和相關分類器的設計方法。第3章介紹統(tǒng)計模式識別中的概率方法,著重介紹最小錯誤概率分類器、最小風險分類器、紐曼皮爾遜分類器和最小最大分類器以及概率密度函數(shù)的參數(shù)估計和非參數(shù)估計等。第4章討論典型分類器錯誤概率的計算問題。第5章討論無監(jiān)督情況下的模式識別問題,著重介紹幾種典型的聚類算法:基于分裂的聚類方法、基于合并的聚類方法、動態(tài)聚類方法、基于核函數(shù)的聚類方法和近鄰函數(shù)值聚類方法等。第6章討論結構模式識別問題,給出幾種典型的文法規(guī)則和與之相關聯(lián)的識別裝置,包括有限狀態(tài)自動機、下推自動機和圖靈機等。最后,在第7章對全書進行總結。
《模式識別》可作為電子信息類各專業(yè)高年級本科生和碩士研究生模式識別課程的教材,也可供從事模式識別相關研究的教師和科研人員參考。
2008年是中國科學技術大學建校五十周年。為了反映五十年來辦學理念和特色,集中展示教材建設的成果,學校決定組織編寫出版代表中國科學技術大學教學水平的精品教材系列。在各方的共同努力下,共組織選題281種,經(jīng)過多輪、嚴格的評審,最后確定50種人選精品教材系列。
1958年學校成立之時,教員大部分都來自中國科學院的各個研究所。作為各個研究所的科研人員,他們到學校后保持了教學的同時又作研究的傳統(tǒng)。同時,根據(jù)“全院辦校,所系結合”的原則,科學院各個研究所在科研第一線工作的杰出科學家也參與學校的教學,為本科生授課,將最新的科研成果融人到教學中。五十年來,外界環(huán)境和內在條件都發(fā)生了很大變化,但學校以教學為主、教學與科研相結合的方針沒有變。正因為堅持了科學與技術相結合、理論與實踐相結合、教學與科研相結合的方針,并形成了優(yōu)良的傳統(tǒng),才培養(yǎng)出了一批又一批高質量的人才。
學校非常重視基礎課和專業(yè)基礎課教學的傳統(tǒng),也是她特別成功的原因之一。當今社會,科技發(fā)展突飛猛進、科技成果日新月異,沒有扎實的基礎知識,很難在科學技術研究中作出重大貢獻。建校之初,華羅庚、吳有訓、嚴濟慈等老一輩科學家、教育家就身體力行,親自為本科生講授基礎課。他們以淵博的學識、精湛的講課藝術、高尚的師德,帶出一批又一批杰出的年輕教員,培養(yǎng)了一屆又一屆優(yōu)秀學生。這次人選校慶精品教材的絕大部分是本科生基礎課或專業(yè)基礎課的教材,其作者大多直接或間接受到過這些老一輩科學家、教育家的教誨和影響,因此在教材中也貫穿著這些先輩的教育教學理念與科學探索精神。
改革開放之初,學校最先選派青年骨干教師赴西方國家交流、學習,他們在帶回先進科學技術的同時,也把西方先進的教育理念、教學方法、教學內容等帶回到中國科學技術大學,并以極大的熱情進行教學實踐,使“科學與技術相結合、理論與實踐相結合、教學與科研相結合”的方針得到進一步深化,取得了非常好的效果,培養(yǎng)的學生得到全社會的認可。這些教學改革影響深遠,直到今天仍然受到學生的歡迎,并輻射到其他高校。在入選的精品教材中,這種理念與嘗試也都有充分的體現(xiàn)。
總序
前言
第1章 緒論
1.1 模式和模式識別
1.2 模式的分類
1.3 模式識別系統(tǒng)的基本構成
1.4 模式識別方法及其分類
1.5 模式識別舉例
1.6 本書內容安排
第2章 統(tǒng)計模式識別中的幾何方法
2.1 統(tǒng)計分類的基本思想
2.1.1 特征空間和分類器設計
2.1.2 兩個例子
2.2 模式的相似性度量和最小距離分類器
2.2.1 相似性度量和距離函數(shù)
2.2.2 最小距離分類器
2.3 線性可分情況下的幾何分類法
2.3.1 線性判別函數(shù)和線性分類器
2.3.2 線性判別函數(shù)的參數(shù)確定
2.3.3 感知器算法
2.3.4 收斂性定理
2.3.5 梯度下降法
2.3.6 最小平方誤差法
2.4 非線性可分情況下的幾何分類法
2.4.1 廣義線性判別函數(shù)法
2.4.2 分段線性判別函數(shù)法
2.4.3 非線性判別函數(shù)法:位勢函數(shù)法
2.5 線性可分問題的非迭代解法
2.6 最優(yōu)分類超平面
本章小結
第3章 統(tǒng)計模式識別中的概率方法
3.1 用概率方法描述分類問題
3.2 幾個相關的概念
3.3 最小錯誤概率判決準則
3.4 最小風險判決規(guī)則
3.5 貝葉斯統(tǒng)計判決規(guī)則的似然比表現(xiàn)形式
3.5.1 最小錯誤概率判決規(guī)則的似然比表現(xiàn)形式
3.5.2 最小風險判決規(guī)則的似然比表現(xiàn)形式
3.6 拒絕判決
3.7 貝葉斯分類器的一般結構
3.8 Neyman-Pearson判決規(guī)則
3.9 最小最大判決規(guī)則
3.10 基于分段線性化的分類器設計
3.11 正態(tài)分布下的分類器設計
3.11.1 正態(tài)分布的定義和若干性質
3.11.2 正態(tài)分布下的分類器設計
3.12 有監(jiān)督情況下類條件概率密度的參數(shù)估計
3.12.1 最大似然估計
3.12.2 貝葉斯估計和貝葉斯學習
3.13 非監(jiān)督情況下類條件概率密度的參數(shù)估計
3.14 類條件概率密度的非參數(shù)估計
3.14.1 非參數(shù)估計的基本概念和方法
3.14.2 Parzen窗估計法
3.14.3 Kn-近鄰估計法
3.14.4 正交級數(shù)副近法
本章小結
第4章 分類器的錯誤率
4.1 正態(tài)分布下的錯誤率
4.2 樣本各維之間統(tǒng)計獨立情況下的錯誤率
4.3 錯誤率界限的理論估計
4.3.1 Chernoff界限
4.3.2 Bhattacharyya界限
4.4 近鄰分類法的錯誤率
4.5 分類器錯誤率的實驗估計
4.5.1 已訓練分類器錯誤率的實驗估計
4.5.2 有限樣本情況下分類器錯誤率的實驗估計
本章小結
第5章 統(tǒng)計模式識別中的聚類方法
5.1 聚類分析
5.2 聚類準則
5.2.1 誤差平方和準則函數(shù)
5.2.2 權平均平方距離和準則函數(shù)
5.2.3 類間距離和準則函數(shù)
5.2.4 離散度準則函數(shù)
5.3 基于分裂的聚類算法
5.3.1 簡單增類聚類算法
5.3.2 改進的增類聚類算法
5.4 基于合并的聚類算法
5.5 動態(tài)聚類算法
5.5.1 C-均值動態(tài)聚類算法(I)
5.5.2 C-均值動態(tài)聚類算法(Ⅱ)
5.5.3 ISODATA算法
5.5.4 基于樣本和核的相似性度量的動態(tài)聚類算法
5.6 基于近鄰函數(shù)值準則的聚類算法
5.7 最小張樹聚類算法
本章小結
第6章 結構模式識別中的句法方法
6.1 模式基元和模式結構的表達
6.2 形式語言基礎
6.2.1 集合、集合間的關系和集合運算
6.2.2 符號串和語言
6.2.3 文法
6.2.4 文法的分類
6.3 有限狀態(tài)自動機
6.3.1 確定的有限狀態(tài)自動機
6.3.2 非確定的有限狀態(tài)自動機
6.3.3 有限狀態(tài)自動機之間的等價
6.3.4 有限狀態(tài)文法和有限狀態(tài)自動機
6.4 下推自動機
6.4.1 下推自動機的即時描述
6.4.2 上下文無關文法和下推自動機
6.5 圖靈機
6.6 關于語言、文法和自動機的再討論
6.6.1 語言的命名
6.6.2 從語言構建自動機
6.6.3 語言類型的確定
6.7 句法分析
6.7.1 正向剖析過程的樹表示
6.7.2 先驗規(guī)則引導的樹正向剖析算法
6.7.3 基于三角表格的反向剖析算法
6.8 文法推斷
6.8.1 正則文法的推斷
6.8.2 非正則文法的推斷
本章小結
第7章 總結
附錄
參考文獻
特征表達特征的表達方式和特征本身密切相關。如果所選擇的特征是一組度量和屬性特征,那么可以用相應的度量和屬性參量構建一個特征向量。其中,每一個相關的度量和屬性參量構成該特征向量的一個分量。一定范圍內的所有特征向量組成一個特征空間,而前述的特征向量成為該模式空間中的一個點。為敘述方便起見,在不至于引起混淆的情況下今后將這樣的特征向量也稱為觀測樣本。和模式空間一般具有很大維數(shù)這一點不同,相應特征空間的維數(shù)一般很小。這樣,通過引入特征抽取和表達這一關鍵步驟,我們可以實現(xiàn)從模式空間到特征空間的映射;這個映射過程實質上是一個降維的過程。實施降維操作的目的是為了獲取輸入模式的更本質的特征表達以便于后續(xù)的識別與分類。
此外,如果所選擇的特征是一組基元特征,則從基元之間的連接關系出發(fā)來表達輸入模式可能是一種更為恰當?shù)倪x擇。此時,相應的模式可用一個具有一定結構的樹或圖來表示。當然,通過適當定義基元的度量和屬性,輸入模式同樣也可以用特征向量進行表達,雖然這種表達方式有些時候顯得有些牽強。
分類與識別一旦輸人模式的特征被選擇和抽取,接下來的工作是根據(jù)所獲得的輸入模式的特征描述,判斷該輸入模式的類別。當一個輸入模式可被表征為特征空間中的一個特征向量時,相應的問題被轉化為特征空間的分割問題。為了實現(xiàn)對特征空間的正確分割從而解決相應的分類問題,一種做法是進行大量的試驗,即在各種觀測條件下對待識別對象進行大量的觀測,獲得待識別對象大量的觀測樣本;并依據(jù)所選擇的特征通過特征抽取步驟將這些觀測樣本映射到相應的特征空間中。然后,根據(jù)觀測樣本所對應的特征向量在特征空間中的分布情況對特征空間實施分割,將其分割成若干個區(qū)域,使得每一個區(qū)域中盡可能只包含來自同一個類別的樣本。通過這種操作,可以在特征空間中的一個分割區(qū)域和一個類別之間建立關聯(lián)。