Python機(jī)器學(xué)習(xí)——數(shù)據(jù)建模與分析(第2版)
定 價(jià):99 元
- 作者:薛薇
- 出版時(shí)間:2023/7/1
- ISBN:9787121459351
- 出 版 社:電子工業(yè)出版社
- 中圖法分類:TP311.561;TP181
- 頁(yè)碼:392
- 紙張:
- 版次:01
- 開(kāi)本:16開(kāi)
本書(shū)將引領(lǐng)讀者進(jìn)入Python機(jī)器學(xué)習(xí)領(lǐng)域。機(jī)器學(xué)習(xí)是一套先進(jìn)、深刻且內(nèi)容豐富的算法集合,已成為數(shù)據(jù)科學(xué)中數(shù)據(jù)建模與分析的重要方法。Python是一款簡(jiǎn)明、高效且功能強(qiáng)大的開(kāi)源工具,也是數(shù)據(jù)科學(xué)實(shí)踐中最常用的計(jì)算機(jī)語(yǔ)言。學(xué)好機(jī)器學(xué)習(xí)的理論方法,掌握Python這個(gè)實(shí)用工具,是成長(zhǎng)為數(shù)據(jù)科學(xué)人才所必需的。本書(shū)采用理論與實(shí)踐相結(jié)合的方式,理論上突出可讀性并兼具知識(shí)深度和廣度,實(shí)踐上強(qiáng)調(diào)可操作性并兼具應(yīng)用廣泛性,對(duì)機(jī)器學(xué)習(xí)的原理部分進(jìn)行了深入透徹的講解,對(duì)機(jī)器學(xué)習(xí)的算法部分給出了Python代碼,并且在各章中設(shè)置了Python編程示例。全彩呈現(xiàn)機(jī)器學(xué)習(xí)的數(shù)據(jù)建?梢暬瘓D例(80多幅彩圖),掃描書(shū)中相應(yīng)二維碼即可查看。提供配套數(shù)據(jù)集、源代碼、教學(xué)PPT等學(xué)習(xí)資源,登錄華信教育資源網(wǎng)(www.hxedu.com.cn)即可免費(fèi)下載。本書(shū)可作為高等院校機(jī)器學(xué)習(xí)、數(shù)據(jù)分析等專業(yè)課程的教材,也可作為數(shù)據(jù)科學(xué)應(yīng)用研究者及對(duì)Python機(jī)器學(xué)習(xí)感興趣的數(shù)據(jù)建模與分析從業(yè)者的參考書(shū)。
薛薇,工學(xué)碩士,經(jīng)濟(jì)學(xué)博士,中國(guó)人民大學(xué)應(yīng)用統(tǒng)計(jì)學(xué)科研究中心副主任,中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院副教授。主要研究領(lǐng)域:機(jī)器學(xué)習(xí)和文本挖掘、復(fù)雜網(wǎng)絡(luò)建模等。關(guān)注統(tǒng)計(jì)和數(shù)據(jù)挖掘算法及軟件應(yīng)用。涉足企業(yè)客戶終身價(jià)值測(cè)算,基于文本挖掘的熱點(diǎn)事件主題提取和分類,金融、貿(mào)易等復(fù)雜網(wǎng)絡(luò)動(dòng)態(tài)建模等方面。主要代表性教材:《SPSS統(tǒng)計(jì)分析方法及應(yīng)用》《R語(yǔ)言數(shù)據(jù)挖掘方法及應(yīng)用》《R語(yǔ)言:大數(shù)據(jù)分析中的統(tǒng)計(jì)方法及應(yīng)用》《SPSS Modeler數(shù)據(jù)挖掘方法及應(yīng)用》《數(shù)據(jù)科學(xué)概論——從概念到應(yīng)用》《Python機(jī)器學(xué)習(xí)——數(shù)據(jù)建模與分析》等。
目 錄
第1章 機(jī)器學(xué)習(xí)概述 1
1.1 機(jī)器學(xué)習(xí)的發(fā)展:人工智能中的機(jī)器學(xué)習(xí) 1
1.1.1 符號(hào)主義人工智能 2
1.1.2 基于機(jī)器學(xué)習(xí)的人工智能 2
1.2 機(jī)器學(xué)習(xí)的核心:數(shù)據(jù)和數(shù)據(jù)建模 4
1.2.1 機(jī)器學(xué)習(xí)的對(duì)象:數(shù)據(jù)集 4
1.2.2 機(jī)器學(xué)習(xí)的任務(wù):數(shù)據(jù)建模 6
1.3 機(jī)器學(xué)習(xí)的典型應(yīng)用 11
1.3.1 機(jī)器學(xué)習(xí)的典型行業(yè)應(yīng)用 11
1.3.2 機(jī)器學(xué)習(xí)在客戶細(xì)分中的應(yīng)用 12
1.3.3 機(jī)器學(xué)習(xí)在客戶流失分析中的應(yīng)用 13
1.3.4 機(jī)器學(xué)習(xí)在營(yíng)銷(xiāo)響應(yīng)分析中的應(yīng)用 14
1.3.5 機(jī)器學(xué)習(xí)在交叉銷(xiāo)售中的應(yīng)用 15
1.3.6 機(jī)器學(xué)習(xí)在欺詐甄別中的應(yīng)用 16
本章總結(jié) 16
本章習(xí)題 16
第2章 Python機(jī)器學(xué)習(xí)基礎(chǔ) 17
2.1 Python:機(jī)器學(xué)習(xí)的首選工具 17
2.2 Python的集成開(kāi)發(fā)環(huán)境:Anaconda 18
2.2.1 Anaconda的簡(jiǎn)介 19
2.2.2 Anaconda Prompt的使用 19
2.2.3 Spyder的使用 20
2.2.4 Jupyter Notebook的使用 22
2.3 Python第三方包的引用 23
2.4 NumPy使用示例 23
2.4.1 NumPy數(shù)組的創(chuàng)建和訪問(wèn) 24
2.4.2 NumPy的計(jì)算功能 26
2.5 Pandas使用示例 28
2.5.1 Pandas的序列和索引 28
2.5.2 Pandas的數(shù)據(jù)框 29
2.5.3 Pandas的數(shù)據(jù)加工處理 30
2.6 NumPy和Pandas的綜合應(yīng)用:空氣質(zhì)量監(jiān)測(cè)數(shù)據(jù)的預(yù)處理和基本分析 32
2.6.1 空氣質(zhì)量監(jiān)測(cè)數(shù)據(jù)的預(yù)處理 32
2.6.2 空氣質(zhì)量監(jiān)測(cè)數(shù)據(jù)的基本分析 34
2.7 Matplotlib的綜合應(yīng)用:空氣質(zhì)量監(jiān)測(cè)數(shù)據(jù)的圖形化展示 37
2.7.1 AQI的時(shí)間序列變化特點(diǎn) 37
2.7.2 AQI的分布特征及相關(guān)性分析 38
本章總結(jié) 40
本章相關(guān)函數(shù)列表 40
本章習(xí)題 47
第3章 數(shù)據(jù)預(yù)測(cè)與預(yù)測(cè)建模 48
3.1 從線性回歸模型說(shuō)起 49
3.1.1 線性回歸模型的含義 49
3.1.2 線性回歸模型的幾何理解 50
3.1.3 線性回歸模型的評(píng)價(jià) 50
3.1.4 Python應(yīng)用實(shí)踐:PM2.5濃度預(yù)測(cè) 51
3.2 認(rèn)識(shí)線性分類模型 56
3.2.1 線性分類模型的含義 56
3.2.2 線性分類模型的幾何理解 58
3.2.3 線性分類模型的評(píng)價(jià) 60
3.2.4 Python應(yīng)用實(shí)踐:空氣質(zhì)量等級(jí)預(yù)測(cè) 62
3.3 從線性預(yù)測(cè)模型到非線性預(yù)測(cè)模型 67
3.4 預(yù)測(cè)模型的參數(shù)估計(jì) 68
3.4.1 損失函數(shù)與有監(jiān)督學(xué)習(xí) 68
3.4.2 參數(shù)搜索策略 70
3.5 預(yù)測(cè)模型的選擇 72
3.5.1 泛化誤差的估計(jì) 72
3.5.2 Python模擬和啟示:理解泛化誤差 75
3.5.3 預(yù)測(cè)模型過(guò)擬合問(wèn)題 78
3.5.4 模型選擇:偏差和方差 79
本章總結(jié) 82
本章相關(guān)函數(shù)列表 83
本章習(xí)題 83
第4章 數(shù)據(jù)預(yù)測(cè)建模:貝葉斯分類器 84
4.1 貝葉斯概率和貝葉斯法則 84
4.1.1 貝葉斯概率 84
4.1.2 貝葉斯法則 85
4.2 樸素貝葉斯分類器 85
4.2.1 從顧客行為分析角度看樸素貝葉斯分類器 85
4.2.2 Python模擬和啟示:認(rèn)識(shí)樸素貝葉斯分類器的分類邊界 88
4.2.3 Python應(yīng)用實(shí)踐:空氣質(zhì)量等級(jí)預(yù)測(cè) 91
4.3 樸素貝葉斯分類器在文本分類中的應(yīng)用 93
4.3.1 Python文本數(shù)據(jù)預(yù)處理:文本分詞和量化計(jì)算 94
4.3.2 Python文本描述性分析:詞云圖和文本相似性 97
4.3.3 Python文本分析綜合應(yīng)用:裁判文書(shū)的要素提取 99
4.4 貝葉斯參數(shù)估計(jì)簡(jiǎn)介* 102
4.4.1 從科比投籃分析角度看貝葉斯參數(shù)估計(jì)的基本思想 102
4.4.2 共軛先驗(yàn)分布 103
4.4.3 Python應(yīng)用實(shí)踐:科比投籃命中率的研究 106
本章總結(jié) 108
本章相關(guān)函數(shù)列表 108
本章習(xí)題 109
第5章 數(shù)據(jù)預(yù)測(cè)建模:近鄰分析 110
5.1 近鄰分析:K-近鄰法 110
5.1.1 距離:K-近鄰法的近鄰度量 111
5.1.2 參數(shù)K:1-近鄰法和K-近鄰法 112
5.2 回歸預(yù)測(cè)中的K-近鄰法 113
5.2.1 Python模擬和啟示:認(rèn)識(shí)K-近鄰回歸線 113
5.2.2 Python模擬和啟示:認(rèn)識(shí)K-近鄰回歸面 115
5.3 分類預(yù)測(cè)中的K-近鄰法 117
5.3.1 基于1-近鄰法和K-近鄰法的分類 117
5.3.2 Python模擬和啟示:參數(shù)K和分類邊界 118
5.4 基于觀測(cè)相似性的加權(quán)K-近鄰法 120
5.4.1 加權(quán)K-近鄰法的權(quán)重 121
5.4.2 Python模擬和啟示:認(rèn)識(shí)加權(quán)K-近鄰分類邊界 123
5.5 K-近鄰法的Python應(yīng)用實(shí)踐 124
5.5.1 空氣質(zhì)量等級(jí)的預(yù)測(cè) 124
5.5.2 國(guó)產(chǎn)電視劇大眾評(píng)分的預(yù)測(cè) 126
5.6 K-近鄰法的適用性探討* 127
本章總結(jié) 129
本章相關(guān)函數(shù)列表 130
本章習(xí)題 130
第6章 數(shù)據(jù)預(yù)測(cè)建模:決策樹(shù) 131
6.1 決策樹(shù)的基本概念 131
6.1.1 什么是決策樹(shù) 131
6.1.2 決策樹(shù)的深層含義 133
6.2 回歸預(yù)測(cè)中的決策樹(shù) 134
6.2.1 決策樹(shù)的回歸面 134
6.2.2 Python模擬和啟示:樹(shù)深度對(duì)回歸面的影響 135
6.3 分類預(yù)測(cè)中的決策樹(shù) 136
6.3.1 決策樹(shù)的分類邊界 137
6.3.2 Python模擬和啟示:樹(shù)深度對(duì)分類邊界的影響 137
6.4 決策樹(shù)的生長(zhǎng)和剪枝 139
6.4.1 決策樹(shù)的生長(zhǎng) 140
6.4.2 決策樹(shù)的剪枝 141
6.5 經(jīng)典決策樹(shù)算法:CART 142
6.5.1 CART的生長(zhǎng) 142
6.5.2 CART的后剪枝 145
6.6 決策樹(shù)的Python應(yīng)用實(shí)踐 148
6.6.1 PM2.5濃度的預(yù)測(cè) 148
6.6.2 空氣質(zhì)量等級(jí)的預(yù)測(cè) 149
6.6.3 藥物適用性研究 151
6.7 決策樹(shù)的高方差性* 153
本章總結(jié) 154
本章相關(guān)函數(shù)列表 154
本章習(xí)題 155
第7章 數(shù)據(jù)預(yù)測(cè)建模:集成學(xué)習(xí) 156
7.1 集成學(xué)習(xí)概述 156
7.1.1 高方差性問(wèn)題的解決途徑 157
7.1.2 從弱模型到強(qiáng)模型的構(gòu)建 157
7.2 基于重抽樣自舉法的集成學(xué)習(xí) 158
7.2.1 重抽樣自舉法 158
7.2.2 袋裝法的基本思想 158
7.2.3 隨機(jī)森林的基本思想 160
7.2.4 Python應(yīng)用實(shí)踐:基于袋裝法和隨機(jī)森林預(yù)測(cè)PM2.5濃度 162
7.3 從弱模型到強(qiáng)模型的構(gòu)建:提升法 165
7.3.1 提升法的基本思路 165
7.3.2 Python模擬和啟示:弱模型聯(lián)合成為強(qiáng)模型 166
7.3.3 分類預(yù)測(cè)中的提升法:AdaBoost.M1算法 168
7.3.4 Python模擬和啟示:認(rèn)識(shí)AdaBoost.M1算法中高權(quán)重的樣本觀測(cè) 171
7.3.5 回歸預(yù)測(cè)中的提升法 173
7.3.6 Python應(yīng)用實(shí)踐:基于AdaBoost預(yù)測(cè)PM2.5濃度 174
7.3.7 提升法的推廣算法* 176
7.4 梯度提升決策樹(shù) 179
7.4.1 梯度提升算法 179
7.4.2 梯度提升回歸樹(shù) 183
7.4.3 Python模擬和啟示:認(rèn)識(shí)梯度提升回歸樹(shù) 184
7.4.4 梯度提升分類樹(shù) 185
7.4.5 Python模擬和啟示:認(rèn)識(shí)梯度提升分類樹(shù) 186
7.5 XGBoost算法 188
7.5.1 XGBoost算法的目標(biāo)函數(shù) 188
7.5.2 目標(biāo)函數(shù)的近似表達(dá) 189
7.5.3 決策樹(shù)的求解 190
7.5.4 Python應(yīng)用實(shí)踐:基于XGBoost算法預(yù)測(cè)空氣質(zhì)量等級(jí) 191
本章總結(jié) 194
本章相關(guān)函數(shù)列表 194
本章習(xí)題 195
第8章 數(shù)據(jù)預(yù)測(cè)建模:人工神經(jīng)網(wǎng)絡(luò) 197
8.1 人工神經(jīng)網(wǎng)絡(luò)的基本概念 198
8.1.1 人工神經(jīng)網(wǎng)絡(luò)的基本構(gòu)成 198
8.1.2 人工神經(jīng)網(wǎng)絡(luò)節(jié)點(diǎn)的功能 199
8.2 感知機(jī)網(wǎng)絡(luò) 200
8.2.1 感知機(jī)網(wǎng)絡(luò)中的節(jié)點(diǎn) 200
8.2.2 感知機(jī)網(wǎng)絡(luò)節(jié)點(diǎn)中的加法器 201
8.2.3 感知機(jī)網(wǎng)絡(luò)節(jié)點(diǎn)中的激活函數(shù) 202
8.2.4 Python模擬和啟示:認(rèn)識(shí)激活函數(shù) 203
8.2.5 感知機(jī)網(wǎng)絡(luò)的權(quán)重訓(xùn)練 206
8.3 多層感知機(jī)網(wǎng)絡(luò) 211
8.3.1 多層感知機(jī)網(wǎng)絡(luò)的結(jié)構(gòu) 211
8.3.2 多層感知機(jī)網(wǎng)絡(luò)中的隱藏節(jié)點(diǎn) 213
8.3.3 Python模擬和啟示:認(rèn)識(shí)隱藏節(jié)點(diǎn) 215
8.4 反向傳播算法 218
8.4.1 反向傳播算法的基本思想 218
8.4.2 局部梯度和連接權(quán)重更新 218
8.5 多層神經(jīng)網(wǎng)絡(luò)的其他問(wèn)題* 220
8.6 人工神經(jīng)網(wǎng)絡(luò)的Python應(yīng)用實(shí)踐 221
8.6.1 手寫(xiě)體郵政編碼的識(shí)別 221
8.6.2 PM2.5濃度的回歸預(yù)測(cè) 224
本章總結(jié) 225
本章相關(guān)函數(shù)列表 225
本章習(xí)題 226
第9章 數(shù)據(jù)預(yù)測(cè)建模:支持向量機(jī) 227
9.1 支持向量分類概述 228
9.1.1 支持向量分類的基本思路 228
9.1.2 支持向量分類的三種情況 230
9.2 完全線性可分下的支持向量分類 231
9.2.1 完全線性可分下的超平面 231
9.2.2 參數(shù)求解和分類預(yù)測(cè) 233
9.2.3 Python模擬和啟示:認(rèn)識(shí)支持向量 236
9.3 廣義線性可分下的支持向量分類 238
9.3.1 廣義線性可分下的超平面 238
9.3.2 廣義線性可分下的誤差懲罰和目標(biāo)函數(shù) 239
9.3.3 Python模擬和啟示:認(rèn)識(shí)懲罰參數(shù)C 240
9.3.4 參數(shù)求解和分類預(yù)測(cè) 242
9.4 線性不可分下的支持向量分類 243
9.4.1 線性不可分問(wèn)題的一般解決方式 243
9.4.2 支持向量分類克服維災(zāi)難的途徑 244
9.4.3 Python模擬和啟示:認(rèn)識(shí)核函數(shù) 246
9.5 支持向量回歸概述* 249
9.5.1 支持向量回歸的基本思路 249
9.5.2 支持向量回歸的目標(biāo)函數(shù)和約束條件 251
9.5.3 Python模擬和啟示:認(rèn)識(shí)參數(shù)? 253
9.6 支持向量機(jī)的Python應(yīng)用實(shí)踐:老人風(fēng)險(xiǎn)體位預(yù)警 254
9.6.1 示例背景和數(shù)據(jù)說(shuō)明 255
9.6.2 Python實(shí)現(xiàn) 255
本章總結(jié) 260
本章相關(guān)函數(shù)列表 260
本章習(xí)題 260
第10章 特征選擇:過(guò)濾、包裹和嵌入策略 261
10.1 過(guò)濾策略下的特征選擇 262
10.1.1 低方差過(guò)濾法 263
10.1.2 高相關(guān)過(guò)濾法中的方差分析 264
10.1.3 高相關(guān)過(guò)濾法中的卡方檢驗(yàn) 268
10.1.4 Python應(yīng)用實(shí)踐:過(guò)濾策略下手寫(xiě)體郵政編碼數(shù)字的特征選擇 270
10.1.5 其他高相關(guān)過(guò)濾法* 272
10.2 包裹策略下的特征選擇 274
10.2.1 包裹策略的基本思路 274
10.2.2 遞歸式特征剔除算法 275
10.2.3 基于交叉驗(yàn)證的遞歸式特征剔除算法 276
10.2.4 Python應(yīng)用實(shí)踐:包裹策略下手寫(xiě)體郵政編碼數(shù)字的特征選擇 276
10.3 嵌入策略下的特征選擇 278
10.3.1 嶺回歸和Lasso回歸 278
10.3.2 彈性網(wǎng)回歸 282
10.3.3 Python應(yīng)用實(shí)踐:嵌入策略下手寫(xiě)體郵政編碼數(shù)字的特征選擇 283
本章總結(jié) 289
本章相關(guān)函數(shù)列表 289
本章習(xí)題 289
第11章 特征提取:空間變換策略 290
11.1 主成分分析 291
11.1.1 主成分分析的基本出發(fā)點(diǎn) 291
11.1.2 主成分分析的基本原理 292
11.1.3 確定主成分 295
11.1.4 Python模擬與啟示:認(rèn)識(shí)主成分 296
11.2 矩陣的奇異值分解 298
11.2.1 奇異值分解的基本思路 298
11.2.2 奇異值分解的Python應(yīng)用實(shí)踐:臉部數(shù)據(jù)特征提取 299
11.3 核主成分分析* 301
11.3.1 核主成分分析的出發(fā)點(diǎn) 301
11.3.2 核主成分分析的基本原理 303
11.3.3 Python模擬和啟示:認(rèn)識(shí)核主成分 305
11.4 因子分析 307
11.4.1 因子分析的基本出發(fā)點(diǎn) 308
11.4.2 因子分析的基本原理 309
11.4.3 Python模擬和啟示:認(rèn)識(shí)因子分析的計(jì)算過(guò)程 312
11.4.4 因子分析的其他問(wèn)題 316
11.4.5 因子分析的Python應(yīng)用實(shí)踐:空氣質(zhì)量綜合評(píng)測(cè) 318
本章總結(jié) 320
本章相關(guān)函數(shù)列表 321
本章習(xí)題 321
第12章 揭示數(shù)據(jù)內(nèi)在結(jié)構(gòu):聚類分析 322
12.1 聚類分析概述 322
12.1.1 聚類分析的目的 322
12.1.2 聚類算法概述 324
12.1.3 聚類解的評(píng)價(jià) 325
12.1.4 聚類解的可視化 328
12.2 基于質(zhì)心的聚類模型:K-均值聚類 329
12.2.1 K-均值聚類基本過(guò)程 329
12.2.2 基于K-均值聚類的類別預(yù)測(cè) 331
12.2.3 Python模擬和啟示:認(rèn)識(shí)K-均值聚類中的聚類數(shù)目K 331
12.3 基于連通性的聚類模型:系統(tǒng)聚類 335
12.3.1 系統(tǒng)聚類的基本過(guò)程 335
12.3.2 系統(tǒng)聚類中距離的連通性度量 335
12.3.3 Python模擬和啟示:認(rèn)識(shí)系統(tǒng)聚類中的聚類數(shù)目K 336
12.4 基于高斯分布的聚類模型:EM聚類* 340
12.4.1 出發(fā)點(diǎn):有限混合分布 341
12.4.2 EM聚類算法 342
12.4.3 Python模擬和啟示:認(rèn)識(shí)EM聚類 345
12.5 聚類分析的Python應(yīng)用實(shí)踐:環(huán)境污染的區(qū)域特征分析 348
本章總結(jié) 351
本章相關(guān)函數(shù)列表 351
本章習(xí)題 352
第13章 揭示數(shù)據(jù)內(nèi)在結(jié)構(gòu):特色聚類 353
13.1 基于密度的聚類:DBSCAN 353
13.1.1 DBSCAN中的相關(guān)概念 353
13.1.2 DBSCAN過(guò)程 355
13.1.3 Python模擬和啟示:認(rèn)識(shí)DBSCAN的異形聚類特點(diǎn) 355
13.2 Mean-Shift聚類* 358
13.2.1 什么是核密度估計(jì) 359
13.2.2 核密度估計(jì)在Mean-Shift聚類中的意義 361
13.2.3 Mean-Shift聚類過(guò)程 362
13.2.4 Python模擬與啟示:認(rèn)識(shí)Mean-Shift聚類中的核寬 363
13.3 BIRCH 365
13.3.1 BIRCH的特點(diǎn) 365
13.3.2 BIRCH算法中的聚類特征樹(shù) 365
13.3.3 BIRCH的基本思路 368
13.3.4 Python模擬和啟示:認(rèn)識(shí)BIRCH的特點(diǎn) 370
13.4 特色聚類的Python應(yīng)用實(shí)踐:批發(fā)商的市場(chǎng)細(xì)分 374
13.4.1 數(shù)據(jù)說(shuō)明 374
13.4.2 Python實(shí)現(xiàn) 375
本章總結(jié) 377
本章相關(guān)函數(shù)列表 377
本章習(xí)題 378