現(xiàn)代計算機(jī)科學(xué)與技術(shù)教材系列:數(shù)據(jù)挖掘與教學(xué)建模
定 價:39 元
- 作者:廖芹 ,等 著
- 出版時間:2010/2/1
- ISBN:9787118066715
- 出 版 社:國防工業(yè)出版社
- 中圖法分類:TP311.13
- 頁碼:352
- 紙張:膠版紙
- 版次:1
- 開本:16開
《數(shù)據(jù)挖掘與教學(xué)建!芬試H數(shù)據(jù)挖掘標(biāo)準(zhǔn)流程(GRISP-DM)為依據(jù),以企業(yè)管理面臨的現(xiàn)實問題為應(yīng)用案例,由淺入深介紹數(shù)據(jù)挖掘方法及其解決問題過程的數(shù)據(jù)理解、數(shù)據(jù)處理、數(shù)據(jù)分析、數(shù)學(xué)建模、模型結(jié)果評估等內(nèi)容,并引人應(yīng)用廣泛的數(shù)據(jù)挖掘Clementine軟件輔助問題案例的解決,使讀者不僅可以集中地學(xué)習(xí)數(shù)據(jù)挖據(jù)的主要理論方法,而且可以了解基于數(shù)據(jù)挖掘的數(shù)學(xué)建模過程,可以學(xué)習(xí)應(yīng)用軟件輔助解決問題的操作方法。
《數(shù)據(jù)挖掘與教學(xué)建!钒牙碚、案例、建模、軟件輔助結(jié)合一體統(tǒng)一敘述,簡述理論,突出應(yīng)用,詳細(xì)分析,展示過程,既考慮高校學(xué)生的學(xué)習(xí)需要,分本科生與研究生學(xué)習(xí)層次,又考慮企業(yè)管理者的應(yīng)用與實踐需要。
《數(shù)據(jù)挖掘與教學(xué)建!房勺鳛閿(shù)據(jù)挖掘理論與技術(shù)的教學(xué)、實踐、應(yīng)用和提高的教科書或參考書。適合高等學(xué)校本科高年級學(xué)生、研究生以及學(xué)習(xí)數(shù)據(jù)挖掘、數(shù)學(xué)模型課程的學(xué)生使用,也適合相關(guān)的企業(yè)管理與決策支持技術(shù)人員使用。
民眾多好飲酒,中外概莫能外。酒館和釀酒坊伴隨飲酒客而起,人類對酒的喜愛造就了酒文化和一個龐大的產(chǎn)業(yè)。好酒能賣好價錢,能使文人詩興大發(fā),催生佳作,還能解人間百難。于是,釀天下名酒自然成為不少人的畢生追求。
怎樣才能釀出好酒呢?國人的看法不盡相同。崇信洋酒的人主張引進(jìn)國外的生產(chǎn)工藝,學(xué)習(xí)洋人的生產(chǎn)和經(jīng)營理念,而喜歡國酒的人則主張走自己的路,但不排除借鑒國外先進(jìn)的科學(xué)技術(shù)和管理經(jīng)驗。這樣的爭論或許永遠(yuǎn)不會終結(jié),但外國人重視科學(xué)釀酒,這一點是值得我們學(xué)習(xí)和借鑒的。
計算機(jī)科學(xué)教育,如同釀酒工業(yè)的生產(chǎn)一樣,科學(xué)辦學(xué)迄今還只是部分學(xué)者的一種理想。與國內(nèi)一樣,國外的計算機(jī)科學(xué)教育并沒有像他們的科學(xué)釀酒業(yè)一樣,實現(xiàn)科學(xué)辦學(xué)。也許科學(xué)辦學(xué)要遠(yuǎn)比科學(xué)釀酒困難得多。譬如,怎么實現(xiàn)科學(xué)辦學(xué)?甚至怎么推出一套科學(xué)的系列教材都是一篇大文章。
這套教材的創(chuàng)作始于教育部面向21世紀(jì)教育與教學(xué)改革13-22項目的研究。2000年,在13-22項目研究工作即將完成之際,一些學(xué)者開始認(rèn)識到面對計算機(jī)科學(xué)與技術(shù)的高速發(fā)展,我們亟需一套體現(xiàn)科學(xué)辦學(xué)思想、反映內(nèi)涵發(fā)展要求、服務(wù)教育與教學(xué)改革、參與構(gòu)建學(xué)科人才培養(yǎng)科學(xué)體系的系列教材。強(qiáng)調(diào)系列教材是因為那時已經(jīng)意識到計算機(jī)科學(xué)教育本質(zhì)上是一項科學(xué)活動,但長期以來教師向?qū)W生傳授科學(xué)技術(shù)知識的方式方法科學(xué)性不強(qiáng)。由于高等教育幾百年來一直沿襲經(jīng)驗方式而非科學(xué)方式辦學(xué),大學(xué)教學(xué)的方式方法仍然還停留在古代作坊式的階段,只不過今天使用的教學(xué)技術(shù)手段先進(jìn)而已。在經(jīng)驗辦學(xué)方式下,無論是研究型大學(xué)還是教學(xué)型大學(xué),由于種種原因,教學(xué)活動的全過程存在著太多的漏洞和質(zhì)量上的隱患。科學(xué)辦學(xué)是對高等教育界傳統(tǒng)的一個挑戰(zhàn),盡管在認(rèn)識上,人們不難理解,科學(xué)辦學(xué)是經(jīng)驗辦學(xué)的最高形式,而經(jīng)驗辦學(xué)應(yīng)該成為科學(xué)辦學(xué)的有益補(bǔ)充。
13-22項目組積極探索,率先倡導(dǎo)科學(xué)辦學(xué)理念,初步構(gòu)建了一個體現(xiàn)科學(xué)辦學(xué)思想,反映內(nèi)涵發(fā)展要求的計算機(jī)科學(xué)一級學(xué)科人才培養(yǎng)科學(xué)理論體系,為學(xué)科專業(yè)教育探索新天地,走向科學(xué)辦學(xué)和發(fā)展學(xué)科系列教材提供了一個認(rèn)知基礎(chǔ)。
長期以來,學(xué)術(shù)界一直在探索計算機(jī)科學(xué)專業(yè)教育的規(guī)律。
第1章 數(shù)據(jù)挖掘與數(shù)學(xué)建模關(guān)系概述
1.1 當(dāng)前信息化發(fā)展的趨勢與面對問題
1.2 數(shù)據(jù)挖掘發(fā)展及其應(yīng)用
1.3 基于數(shù)據(jù)挖掘的數(shù)學(xué)建模
1.4 數(shù)據(jù)挖掘軟件Clementine的基本操作概述
1.4.1 Clementine數(shù)據(jù)挖掘的基本思想
1.4.2 Clementine的基本操作方法
參考文獻(xiàn)
第2章 統(tǒng)計分析
2.1 問題概述
2.2 回歸分析及其應(yīng)用
2.2.1 回歸分析概述
2.2.2 一元線性回歸及其模型建立
2.2.3 多元線性回歸及其建模過程
2.2.4 Clementine輔助多元回歸分析
2.3 二項邏輯回歸
2.3.1 二項邏輯回歸概述
2.3.2 二項邏輯回歸模型
2.3.3 二項邏輯回歸方程中回歸系數(shù)的含義
2.3.4 二項邏輯回歸方程的檢驗
2.3.5 Clementine輔助Logistic回歸模型
2.4 主成分分析
2.4.1 主成分分析概述
2.4.2 主成分分析的數(shù)學(xué)模型
2.4.3 主成分計算步驟及應(yīng)用
2.5 因子分析
2.5.1 因子分析概述
2.5.2 因子分析的數(shù)學(xué)模型
2.5 3因子載荷陣的估計方法
2.5.4 因子旋轉(zhuǎn)
2.5.5 因子得分
2.5.6 因子分析與主成分分析的聯(lián)系與區(qū)別
2.6 管理勝任力的案例分析和數(shù)學(xué)建模
2.6.1 問題提出
2.6.2 數(shù)據(jù)處理
2.6.3 模型建立
2.6.4 模型檢驗
2.6.5 模型應(yīng)用
參考文獻(xiàn)
第3章 聚類分析
3.1 問題概述
3.2 聚類分析概述
3.3 基于距離的聚類相似度
3.4 系統(tǒng)聚類法
3.5 C-均值(C-Means)聚類算法
3.6 Clementine輔助K-Means聚類
3.7 模糊聚類
3.7.1 模糊C-Means(FCM)算法
3.7.2 WFCM算法
3.8 聚類有效性
3.8.1 基于可能性分布的聚類有效性函數(shù)
3.8.2 基于模糊相關(guān)度的聚類有效性函數(shù)
3.9 醫(yī)療建設(shè)評價的案例分析與數(shù)學(xué)建模
參考文獻(xiàn)
第4章 神經(jīng)網(wǎng)絡(luò)及其應(yīng)用
4.1 問題概述
4.2 神經(jīng)網(wǎng)絡(luò)概述
4.3 神經(jīng)網(wǎng)絡(luò)的基本模型
4.3.1 神經(jīng)網(wǎng)絡(luò)的理論依據(jù)
4.3.2 神經(jīng)網(wǎng)絡(luò)的組成
4.3.3 感知機(jī)模型
4.4 誤差逆?zhèn)鞑ド窠?jīng)網(wǎng)絡(luò)模型
4.4.1 BP神經(jīng)網(wǎng)絡(luò)的基本原理
4.4.2 BP神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)算法
4.4.3 Clementine輔助XOR問題的模型建立
4.5 RBF神經(jīng)網(wǎng)絡(luò)
4.5.1 RBF神經(jīng)網(wǎng)絡(luò)的基本原理
4.5.2 RBF神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)算法
4.5.3 新型輪胎性能的RBF神經(jīng)網(wǎng)絡(luò)預(yù)測
4.6 自組織特征映射(SOM)神經(jīng)網(wǎng)絡(luò)
4.6.1 SOM模型的基本原理
4.6.2 SOM模型的學(xué)習(xí)算法
4.6.3 Clementine輔助Kohonen模型建立
4.7 神經(jīng)網(wǎng)絡(luò)的案例分析與數(shù)學(xué)建模
4.7.1 城市醫(yī)療能力評價的BP神經(jīng)網(wǎng)絡(luò)
4.7.2 地下燃?xì)夤芫W(wǎng)安全風(fēng)險的綜合評價
4.8 模糊神經(jīng)網(wǎng)絡(luò)
4.8.1 模糊基本概念
4.8.2 模糊神經(jīng)網(wǎng)絡(luò)概述
4.8.3 模糊神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法
4.8.4 食品安全管理主任評價模糊神經(jīng)網(wǎng)絡(luò)模型
參考文獻(xiàn)
第5章 決策樹及其應(yīng)用
5.1 問題概述
5.2 決策樹概述
5.2.1 決策樹基本算法
5.2.2 CLS算法
5.2.3 信息熵
5.3 ID3算法
5.3.1 基本思想
5.3.2 ID3算法應(yīng)用實例
5.4.4.5 算法
5.4.1 基本思想
5.4.2 基于信息增益率建模的決策樹
5.5 CART算法
5.5.1 基本思想
5.5.2 基于CART算法建模的決策樹
5.6 Clementine輔助決策樹建立
5.7 決策樹的評價標(biāo)準(zhǔn)
5.8 決策樹的剪枝
5.9 決策樹的優(yōu)化
5.10 燃?xì)夤芫W(wǎng)安全預(yù)測案例分析與數(shù)學(xué)建模
5.11 模糊決策樹
5.11.1 模糊決策樹基本原理
5.11.2 模糊決策樹ID3算法
5.11.3 績效評估的模糊決策樹建立
參考文獻(xiàn)
第6章 關(guān)聯(lián)分析
6.1 問題概述
6.2 關(guān)聯(lián)分析概述
6.3 Apriori關(guān)聯(lián)規(guī)則算法
6.4 Clementine輔助Apriori算法實現(xiàn)關(guān)聯(lián)分析
6.5 基于Apriori算法的改進(jìn)算法
6.6 基于分類搜索的關(guān)聯(lián)規(guī)則算法
6.7 基于頻繁樹的關(guān)聯(lián)規(guī)則算法
6.8 關(guān)聯(lián)規(guī)則的推廣
6.8.1 層次關(guān)聯(lián)規(guī)則算法
6.8.2 三種層次關(guān)聯(lián)規(guī)則的算法
6.9 時序關(guān)聯(lián)規(guī)則算法
6.10 Clememtin輔助時序關(guān)聯(lián)分析
6.11 多值屬性關(guān)聯(lián)規(guī)則算法
6.12 增量關(guān)聯(lián)規(guī)則算法
6.12.1 方法概述
6.12.2 算法描述
……
第7章 遺傳算法
第8章 貝葉斯網(wǎng)絡(luò)與知識推理
參考文獻(xiàn)
如果檢驗結(jié)果達(dá)到期望的目標(biāo),表示模型建立完畢,如果檢驗發(fā)現(xiàn)有較大的偏差,即模型計算的目標(biāo)值與實際樣本目標(biāo)值不一致,表示模型的結(jié)果不符合實際需要,此時要返回數(shù)據(jù)處理環(huán)節(jié),檢查提取樣本特征和定義樣本取值的合理性,當(dāng)學(xué)習(xí)樣本不足以代表檢驗樣本信息或擬合模型偏離時,可能導(dǎo)致建立模型的失效性。
5)結(jié)果評估
建立的模型通過模型檢驗后,要對模型結(jié)果反映的數(shù)據(jù)關(guān)系的變化規(guī)律進(jìn)行科學(xué)分析與評估,使與實際應(yīng)用問題的物理意義與現(xiàn)實機(jī)理反映的特征規(guī)律相一致,如果模型結(jié)果反映的變化規(guī)律與實際的不一致,表示盡管學(xué)習(xí)樣本、檢驗樣本與模型結(jié)果一致,但反映的變化規(guī)律仍與問題研究的目標(biāo)有差異,此時應(yīng)返回數(shù)據(jù)理解環(huán)節(jié),分析可能存在但忽略的影響因素變量,通過補(bǔ)充,重新定義新的樣本與模型結(jié)構(gòu),通過再學(xué)習(xí)使模型結(jié)果與實際問題的變化規(guī)律和物理意義相一致。
6)結(jié)果應(yīng)用
當(dāng)建立的數(shù)學(xué)模型不僅通過指定樣本檢驗,而且通過應(yīng)用問題的結(jié)果評估時,模型可以應(yīng)用于問題領(lǐng)域,一般分為試應(yīng)用和完善應(yīng)用兩個階段。由于基于數(shù)據(jù)挖掘的數(shù)學(xué)建模,是從數(shù)據(jù)切入,數(shù)據(jù)獲取的部分性和定義樣本的非全局代表性,可能使模型結(jié)果的應(yīng)用也帶有局部而非全局的特征,需要不斷地擴(kuò)大數(shù)據(jù)收集范圍,擴(kuò)大模型吸取學(xué)習(xí)樣本的特征信息,才能擴(kuò)展模型應(yīng)用的全局性質(zhì),因此,試應(yīng)用是不斷補(bǔ)充樣本特征信息使模型自適應(yīng)學(xué)習(xí)修正模型參數(shù)的過程;完善應(yīng)用是不斷比較模型結(jié)果與專家經(jīng)驗,使模型結(jié)果與實際的期望結(jié)果更接近的完善過程。
1.4 數(shù)據(jù)挖掘軟件Clemerttine的基本操作概述
目前,各領(lǐng)域應(yīng)用的數(shù)據(jù)挖掘軟件輔助決策有許多,較常用的一個軟件是由SPSS生產(chǎn)商推出的數(shù)據(jù)挖掘軟件Clementine。該軟件按照國際定義的數(shù)據(jù)挖掘標(biāo)準(zhǔn)流程設(shè)計,包含了基本的數(shù)據(jù)挖掘方法,具有較強(qiáng)的數(shù)據(jù)與模型集成功能,使用方便直觀,是一種較好的數(shù)據(jù)挖掘教學(xué)與應(yīng)用分析工具。
1.4.1 Clementine數(shù)據(jù)挖掘的基本思想
Clementine提供了大量的人工智能、統(tǒng)計分析的模型(神經(jīng)網(wǎng)絡(luò),關(guān)聯(lián)分析,聚類分析、因子分析等),并用基于圖形化的界面為認(rèn)識、了解、熟悉這個軟件提供了方便。除了這些,Clementine還擁有優(yōu)良的數(shù)據(jù)挖掘設(shè)計思想,正是因為有了這個思想,每一步的工作也變得很清晰,如圖1.1 所示。
如圖1.1 所示,CRISP-DM Model包含了6個步驟,并用箭頭指示了步驟間的執(zhí)行順序。這些順序并不嚴(yán)格,用戶可以根據(jù)實際的需要反向執(zhí)行某個步驟,也可以跳過某些步驟不予執(zhí)行。