Python數(shù)據(jù)挖掘?qū)崙?zhàn)(微課版)
定 價(jià):69.8 元
叢書名:大數(shù)據(jù)應(yīng)用人才能力培養(yǎng)新形態(tài)系列
- 作者:王磊 邱江濤
- 出版時(shí)間:2023/8/1
- ISBN:9787115620392
- 出 版 社:人民郵電出版社
- 中圖法分類:TP311.561
- 頁碼:272
- 紙張:
- 版次:01
- 開本:16開
數(shù)據(jù)挖掘旨在發(fā)現(xiàn)蘊(yùn)含在數(shù)據(jù)中的有價(jià)值的數(shù)據(jù)模式、知識(shí)或規(guī)律,是目前非常熱門的研究領(lǐng)域。理解數(shù)據(jù)挖掘模型的原理、方法并熟練掌握其實(shí)現(xiàn)技術(shù)是數(shù)據(jù)挖掘從業(yè)者必備的能力。
本書從理論模型和技術(shù)實(shí)戰(zhàn)兩個(gè)角度,全面講述數(shù)據(jù)挖掘的基本流程、模型方法、實(shí)現(xiàn)技術(shù)及案例應(yīng)用,幫助讀者系統(tǒng)地掌握數(shù)據(jù)挖掘的核心技術(shù),培養(yǎng)讀者從事數(shù)據(jù)挖掘工作的基本能力。全書共12章,主要內(nèi)容包括數(shù)據(jù)探索、數(shù)據(jù)預(yù)處理、特征選擇、基礎(chǔ)分類模型及回歸模型、集成技術(shù)、聚類分析、關(guān)聯(lián)規(guī)則分析、時(shí)間序列挖掘、異常檢測(cè)、智能推薦等。除第1章、第2章外,本書以一章對(duì)應(yīng)一個(gè)主題的形式完整描述相應(yīng)主題的數(shù)據(jù)挖掘模型,簡(jiǎn)潔、清晰地介紹其基本原理和算法步驟,并結(jié)合Python語言介紹數(shù)據(jù)挖掘模型的實(shí)現(xiàn)技術(shù),同時(shí)結(jié)合案例分析數(shù)據(jù)挖掘模型在數(shù)據(jù)挖掘中的應(yīng)用。此外,書中還通過大量的圖、表、代碼、示例幫助讀者快速掌握相關(guān)內(nèi)容。
本書適合作為相關(guān)專業(yè)本科生和研究生的數(shù)據(jù)挖掘課程的教材,也可以作為數(shù)據(jù)挖掘技術(shù)愛好者或從業(yè)者的入門參考書。
1.本書在內(nèi)容上,數(shù)據(jù)挖掘模型理論原理與數(shù)據(jù)挖掘?qū)崿F(xiàn)并重,實(shí)現(xiàn)二者有機(jī)結(jié)合。
2.本書基于Python語言介紹模型的實(shí)現(xiàn)方法,案例豐富,圖文并茂,適合本科數(shù)據(jù)挖掘課程的教學(xué)。
為高等院校計(jì)算機(jī)科學(xué)與技術(shù)、數(shù)據(jù)科學(xué)與大數(shù)據(jù)及相關(guān)專業(yè)的數(shù)據(jù)挖掘課程教材,也可作為數(shù)據(jù)挖掘相關(guān)從業(yè)者的參考用書。
第1章 緒論 1
1.1 數(shù)據(jù)挖掘概述 1
1.1.1 基本概念 1
1.1.2 數(shù)據(jù)挖掘的典型應(yīng)用場(chǎng)景 3
1.1.3 數(shù)據(jù)挖掘的演化歷程 3
1.2 數(shù)據(jù)挖掘的一般流程 5
1.3 數(shù)據(jù)挖掘環(huán)境的配置 6
1.3.1 常用的數(shù)據(jù)挖掘工具 6
1.3.2 Anaconda 3下載和安裝 8
1.4 本章小結(jié) 11
習(xí)題 11
第2章 Python數(shù)據(jù)挖掘模塊 12
2.1 NumPy 12
2.1.1 Ndarray的創(chuàng)建 13
2.1.2 Ndarray的屬性 16
2.1.3 索引和切片 17
2.1.4 排序 19
2.1.5 NumPy的數(shù)組運(yùn)算 19
2.1.6 NumPy的統(tǒng)計(jì)函數(shù) 20
2.2 Pandas 21
2.2.1 Pandas的數(shù)據(jù)結(jié)構(gòu) 21
2.2.2 查看和獲取數(shù)據(jù) 23
2.2.3 Pandas的算術(shù)運(yùn)算 25
2.2.4 Pandas的匯總和描述性統(tǒng)計(jì)
函數(shù) 26
2.2.5 Pandas的其他常用函數(shù) 28
2.2.6 Pandas讀寫文件 31
2.3 Matplotlib 33
2.3.1 Matplotlib基本繪圖元素 33
2.3.2 常用的Matplotlib圖形繪制 37
2.4 Scikit-learn 40
2.5 本章小結(jié) 43
習(xí)題 43
第3章 數(shù)據(jù)探索 44
3.1 數(shù)據(jù)對(duì)象與特征 44
3.1.1 特征及其類型 44
3.1.2 離散和連續(xù)特征 45
3.2 數(shù)據(jù)統(tǒng)計(jì)描述 45
3.2.1 集中趨勢(shì) 46
3.2.2 離中趨勢(shì) 47
3.3 數(shù)據(jù)可視化 48
3.3.1 散點(diǎn)圖 48
3.3.2 箱線圖 50
3.3.3 頻率直方圖 51
3.3.4 柱狀圖 52
3.3.5 餅圖 53
3.3.6 散點(diǎn)圖矩陣 54
3.4 相關(guān)性和相似性度量 56
3.4.1 相關(guān)性度量 56
3.4.2 相似性度量 60
3.5 本章小結(jié) 63
習(xí)題 63
第4章 數(shù)據(jù)預(yù)處理 64
4.1 數(shù)據(jù)集成 64
4.2 數(shù)據(jù)清洗 68
4.2.1 重復(fù)值處理 68
4.2.2 缺失值處理 71
4.2.3 異常值處理 76
4.3 數(shù)據(jù)變換 77
4.3.1 數(shù)據(jù)規(guī)范化 77
4.3.2 數(shù)值特征的二值化和離散化 81
4.3.3 標(biāo)稱特征的數(shù)值化處理 83
4.4 數(shù)據(jù)規(guī)約 85
4.4.1 樣本規(guī)約 86
4.4.2 維度規(guī)約 88
4.4.3 數(shù)據(jù)壓縮 90
4.5 本章小結(jié) 90
習(xí)題 91
第5章 特征選擇 92
5.1 特征選擇方法概述 92
5.2 過濾法 93
5.2.1 單變量過濾方法 93
5.2.2 多變量過濾方法 99
5.2.3 過濾法的優(yōu)缺點(diǎn) 100
5.2.4 綜合實(shí)例 100
5.3 包裝法 102
5.3.1 遞歸特征消除 103
5.3.2 序列特征選擇 104
5.3.3 包裝法的優(yōu)缺點(diǎn) 106
5.4 嵌入法 106
5.4.1 基于正則化線性模型的方法 107
5.4.2 基于樹模型的方法 109
5.4.3 嵌入法的優(yōu)缺點(diǎn) 109
5.5 本章小結(jié) 110
習(xí)題 110
第6章 基礎(chǔ)分類模型及回歸模型 111
6.1 基本理論 111
6.1.1 分類模型 111
6.1.2 欠擬合和過擬合 112
6.1.3 二分類和多分類 112
6.1.4 線性及非線性分類器 113
6.2 樸素貝葉斯分類器 113
6.2.1 基本原理 113
6.2.2 基于Python的實(shí)現(xiàn) 115
6.3 k近鄰分類器 118
6.3.1 基本原理 118
6.3.2 基于Python的實(shí)現(xiàn) 119
6.4 決策樹 120
6.4.1 基本原理 120
6.4.2 屬性選擇方法 121
6.4.3 例子:計(jì)算信息增益 123
6.4.4 剪枝 124
6.4.5 基于CART決策樹的分類 125
6.4.6 進(jìn)一步討論 127
6.5 人工神經(jīng)網(wǎng)絡(luò) 127
6.5.1 人工神經(jīng)網(wǎng)絡(luò)簡(jiǎn)介 127
6.5.2 BP神經(jīng)網(wǎng)絡(luò) 128
6.5.3 基于BP神經(jīng)網(wǎng)絡(luò)的分類 131
6.6 支持向量機(jī) 132
6.6.1 支持向量機(jī)的原理 133
6.6.2 支持向量分類的Python
實(shí)現(xiàn) 137
6.7 模型的性能評(píng)價(jià) 138
6.7.1 分類模型的評(píng)價(jià)指標(biāo) 138
6.7.2 模型的評(píng)估方法 140
6.8 案例:信用評(píng)分模型 143
6.8.1 案例描述 143
6.8.2 探索性數(shù)據(jù)分析和預(yù)處理 143
6.8.3 模型訓(xùn)練與評(píng)估 146
6.9 回歸 148
6.9.1 線性回歸 148
6.9.2 CART決策樹回歸 150
6.9.3 BP神經(jīng)網(wǎng)絡(luò)回歸 150
6.9.4 支持向量回歸 151
6.10 本章小結(jié) 152
習(xí)題 152
第7章 集成技術(shù) 153
7.1 基本集成技術(shù) 153
7.1.1 裝袋 153
7.1.2 提升 155
7.1.3 堆疊 157
7.1.4 集成技術(shù)的定性分析 160
7.2 隨機(jī)森林 161
7.2.1 工作原理 161
7.2.2 隨機(jī)森林的Python實(shí)現(xiàn) 161
7.3 提升樹 162
7.3.1 原理 162
7.3.2 提升樹的Python實(shí)現(xiàn) 164
7.4 案例:電信客戶流失預(yù)測(cè) 165
7.4.1 探索數(shù)據(jù) 165
7.4.2 模型性能比較 167
7.5 類不平衡問題 168
7.5.1 類不平衡處理方法 169
7.5.2 不平衡數(shù)據(jù)處理的Python
實(shí)現(xiàn) 171
7.6 本章小結(jié) 174
習(xí)題 174
第8章 聚類分析 175
8.1 聚類的基本原理 175
8.2 k-means算法 177
8.2.1 基本原理 177
8.2.2 進(jìn)一步討論 179
8.2.3 基于Python的實(shí)現(xiàn) 180
8.2.4 k-means算法的優(yōu)缺點(diǎn) 182
8.3 聚類算法的性能評(píng)價(jià)指標(biāo) 183
8.3.1 內(nèi)部度量指標(biāo) 184
8.3.2 外部度量指標(biāo) 184
8.3.3 基于Python的實(shí)現(xiàn) 187
8.4 DBSCAN算法 188
8.4.1 基本概念 188
8.4.2 DBSCAN聚類算法的原理 190
8.4.3 進(jìn)一步討論 191
8.4.4 基于Python的實(shí)現(xiàn) 191
8.4.5 DBSCAN算法的優(yōu)缺點(diǎn) 193
8.5 GMM聚類算法 195
8.5.1 基本原理 195
8.5.2 進(jìn)一步討論 197
8.5.3 基于Python的實(shí)現(xiàn) 198
8.5.4 討論:優(yōu)點(diǎn)和不足 200
8.6 本章小結(jié) 201
習(xí)題 201
第9章 關(guān)聯(lián)規(guī)則分析 202
9.1 概述 202
9.1.1 基本概念 202
9.1.2 關(guān)聯(lián)規(guī)則挖掘算法 204
9.2 Apriori算法生成頻繁項(xiàng)集 205
9.2.1 先驗(yàn)原理 205
9.2.2 產(chǎn)生頻繁項(xiàng)集 205
9.2.3 生成關(guān)聯(lián)規(guī)則 207
9.2.4 基于Python的Apriori算法
實(shí)現(xiàn) 208
9.2.5 進(jìn)一步討論 210
9.3 FP-growth算法 210
9.3.1 FP-tree的構(gòu)建 211
9.3.2 挖掘主FP-tree和條件
FP-tree 213
9.3.3 基于Python的FP-growth算法實(shí)現(xiàn) 213
9.3.4 進(jìn)一步討論 215
9.4 Eclat算法 215
9.4.1 事務(wù)數(shù)據(jù)集的表示方式 215
9.4.2 Eclat算法生成頻繁項(xiàng)集 215
9.4.3 基于Python的Eclat算法
實(shí)現(xiàn) 216
9.4.4 進(jìn)一步討論 219
9.5 案例:網(wǎng)上零售購(gòu)物籃分析 219
9.5.1 數(shù)據(jù)集及案例背景 219
9.5.2 探索性分析和數(shù)據(jù)預(yù)處理 220
9.5.3 使用Apriori算法挖掘關(guān)聯(lián)
規(guī)則 221
9.6 本章小結(jié) 223
習(xí)題 223
第10章 時(shí)間序列挖掘 224
10.1 時(shí)間序列挖掘概述 224
10.1.1 時(shí)間序列挖掘的目的 224
10.1.2 時(shí)間序列挖掘的意義 224
10.1.3 時(shí)間序列挖掘的基本概念 225
10.2 時(shí)間序列預(yù)處理 226
10.2.1 常用序列特征統(tǒng)計(jì)量 226
10.2.2 平穩(wěn)序列 227
10.2.3 平穩(wěn)性檢驗(yàn) 228
10.2.4 純隨機(jī)性檢驗(yàn) 230
10.3 平穩(wěn)非白噪聲序列建模 231
10.3.1 AR模型 231
10.3.2 MA模型 232
10.3.3 ARMA模型 232
10.3.4 建模過程 233
10.3.5 模型檢驗(yàn)方法 233
10.4 非平穩(wěn)序列建模 234
10.4.1 非平穩(wěn)序列概述 234
10.4.2 差分運(yùn)算 234
10.4.3 ARIMA模型 234
10.5 基于Python的ARIMA模型
實(shí)現(xiàn) 235
10.6 案例:基于ARIMA模型的
銷售額預(yù)測(cè) 236
10.7 本章小結(jié) 241
習(xí)題 241
第11章 異常檢測(cè) 242
11.1 基于統(tǒng)計(jì)的異常檢測(cè)方法 243
11.1.1 基于一元正態(tài)分布的異常
檢測(cè)方法 243
11.1.2 基于多元正態(tài)分布的異常
檢測(cè)方法 245
11.1.3 基于Python的實(shí)現(xiàn) 245
11.2 基于聚類的異常檢測(cè)方法 247
11.2.1 基本原理 247
11.2.2 基于Python的實(shí)現(xiàn) 248
11.3 孤立森林方法 249
11.3.1 基本原理 249
11.3.2 基于Python的實(shí)現(xiàn) 251
11.4 本章小結(jié) 254
習(xí)題 254
第12章 智能推薦 255
12.1 智能推薦概述 255
12.1.1 智能推薦定義 255
12.1.2 智能推薦場(chǎng)景 255
12.1.3 常用智能推薦技術(shù) 256
12.2 基于用戶的協(xié)同過濾技術(shù) 256
12.2.1 概述 256
12.2.2 常用的評(píng)價(jià)指標(biāo) 257
12.2.3 基本過程描述 258
12.2.4 案例:使用基于用戶的協(xié)同
過濾方法進(jìn)行電影推薦 261
12.3 基于物品的協(xié)同過濾技術(shù) 264
12.4 非負(fù)矩陣分解 265
12.4.1 基本原理 265
12.4.2 基于Python的實(shí)現(xiàn) 266
12.5 本章小結(jié) 269
習(xí)題 269
參考文獻(xiàn) 271