大數(shù)據(jù)、數(shù)據(jù)挖掘理論與應(yīng)用實(shí)踐
定 價:69 元
叢書名:高等院校數(shù)據(jù)科學(xué)與大數(shù)據(jù)專業(yè)"互聯(lián)網(wǎng)+"創(chuàng)新規(guī)劃教材
- 作者:李文書 等
- 出版時間:2020/12/1
- ISBN:9787301318997
- 出 版 社:北京大學(xué)出版社
- 中圖法分類:TP274
- 頁碼:400
- 紙張:
- 版次:1
- 開本:16開
人們每天都會通過互聯(lián)網(wǎng)、移動設(shè)備等產(chǎn)生海量數(shù)據(jù),如何從其中洞悉這些數(shù)據(jù)背后所隱含的“真知灼見”,是我們研究它的意義所在。以前人們總說信息就是力量,現(xiàn)如今對大數(shù)據(jù)進(jìn)行分析、利用和挖掘才是力量之所在。作為大數(shù)據(jù)方面的一部著作,本書是作者長期從事大數(shù)據(jù)、數(shù)據(jù)挖掘等科研工作的總結(jié)。其從大數(shù)據(jù)、數(shù)據(jù)挖掘、實(shí)際案例等三部分深入淺出地介紹了大數(shù)據(jù)領(lǐng)域的知識。
第一部分是大數(shù)據(jù)篇,其主要從數(shù)據(jù)起源、生態(tài)系統(tǒng)、生命周期以及行業(yè)應(yīng)用來分析大數(shù)據(jù)的研究方向和趨勢。并就數(shù)據(jù)預(yù)處理、可視化、安全等大數(shù)據(jù)技術(shù)進(jìn)行了詳細(xì)的闡述,讓深奧的知識淺顯易懂;第二部分是數(shù)據(jù)挖掘認(rèn)知篇,其主要從線性回歸、聚類、關(guān)聯(lián)規(guī)則、分類與預(yù)測、時間序列等方面剖析數(shù)據(jù)挖掘技術(shù);第三部分是實(shí)踐篇,其主要從業(yè)務(wù)和技術(shù)角度闡述已有的科研成果,讓讀者從理論到實(shí)踐過程中深刻理解大數(shù)據(jù)的用途及技術(shù)的本質(zhì)。
本書的讀者對象主要是從事智能信息處理、大數(shù)據(jù)、云服務(wù)等領(lǐng)域的科研工作者和廣大工程技術(shù)人員,也可作為大學(xué)本科教材和自學(xué)讀者用書。
1.李文書,教授,工學(xué)博士,現(xiàn)任浙江理工大學(xué)信息學(xué)院,智能檢測與系統(tǒng)實(shí)驗(yàn)室主任,碩士生導(dǎo)師。IEEE (1-1163129461)、中國計(jì)算機(jī)學(xué)會(E200016385M)會員和杭州市計(jì)算機(jī)學(xué)會會員。2.吳奇石,工學(xué)博士,西北大學(xué)國家級特聘教授,鄭州大學(xué)講座教授,西安電子科技大學(xué)華山學(xué)者,天津大學(xué)客座教授。3.蔡霞,女,計(jì)算機(jī)科學(xué)與技術(shù)碩士,浙江理工大學(xué)信息學(xué)院講師,主要研究方向?yàn)閿?shù)據(jù)挖掘、機(jī)器學(xué)習(xí),獲得CIIT大數(shù)據(jù)開發(fā)工程師證書。4.李楊,男,工學(xué)博士,現(xiàn)任浙江理工大學(xué)信息學(xué)院講師,中國生物醫(yī)學(xué)工程學(xué)會會員,主要研究方向?yàn)獒t(yī)學(xué)圖像分析、機(jī)器學(xué)習(xí),發(fā)表SCI/EI論文10余篇,申請發(fā)明專利3項(xiàng)。5.黃海,男,工學(xué)博士,現(xiàn)任浙江理工大學(xué)信息學(xué)院計(jì)算機(jī)系副教授,碩士生導(dǎo)師,主要研究方向?yàn)樾畔踩c密碼學(xué)、大數(shù)據(jù)安全以及云計(jì)算安全等。6.蘇先創(chuàng),男,工學(xué)博士,現(xiàn)任浙江理工大學(xué)信息學(xué)院講師,主要研究方向?yàn)闄C(jī)器學(xué)習(xí)、仿生智能系統(tǒng),發(fā)表SCI/EI論文10余篇,獲授權(quán)專利3項(xiàng)。
第1章 緒論 3
1.1 什么是大數(shù)據(jù) 4
1.1.1 大數(shù)據(jù)的來源 4
1.1.2 大數(shù)據(jù)的表現(xiàn)形式 5
1.1.3 大數(shù)據(jù)的特征 7
1.2 什么是商業(yè)智能 8
1.3 大數(shù)據(jù)生命周期 9
1.4 數(shù)據(jù)科學(xué)研究的主要問題 11
1.5 數(shù)據(jù)科學(xué)的模型方法 14
1.5.1 有監(jiān)督學(xué)習(xí) 14
1.5.2 無監(jiān)督學(xué)習(xí) 15
1.5.3 半監(jiān)督學(xué)習(xí) 15
1.6 大數(shù)據(jù)方向 16
1.6.1 大數(shù)據(jù)架構(gòu)方向 16
1.6.2 大數(shù)據(jù)分析方向 16
1.6.3 大數(shù)據(jù)開發(fā)方向 17
第2章 數(shù)據(jù)預(yù)處理 19
2.1 統(tǒng)計(jì)分析 20
2.1.1 統(tǒng)計(jì)描述 21
2.1.2 統(tǒng)計(jì)分析中的基本概念 25
2.1.3 參數(shù)估計(jì)和假設(shè)檢驗(yàn) 27
2.1.4 區(qū)間估計(jì)和檢驗(yàn) 28
2.1.5 方差分析 31
2.2 數(shù)據(jù)預(yù)處理 41
2.2.1 數(shù)據(jù)清洗 42
2.2.2 數(shù)據(jù)集成 45
2.2.3 數(shù)據(jù)變換 46
2.2.4 數(shù)據(jù)歸約 47
第3章 大數(shù)據(jù)可視化 63
3.1 數(shù)據(jù)可視化的發(fā)展歷程 64
3.1.1 萌芽時期 66
3.1.2 拉開帷幕 68
3.1.3 初露鋒芒 69
3.1.4 黃金時代 70
3.1.5 穩(wěn)步發(fā)展 72
3.1.6 日新月異 73
3.2 數(shù)據(jù)可視化的分類 74
3.2.1 依據(jù)數(shù)據(jù)類型分類 74
3.2.2 依據(jù)展示方式分類 77
3.2.3 依據(jù)應(yīng)用場景分類 77
3.3 數(shù)據(jù)可視化設(shè)計(jì)的原則 78
3.3.1 親密性(分組) 78
3.3.2 對齊 78
3.3.3 重復(fù)/統(tǒng)一 79
3.3.4 對比/強(qiáng)調(diào) 79
3.3.5 力求表達(dá)準(zhǔn)確、到位、簡潔、易懂 80
3.4 數(shù)據(jù)可視化的流程 80
3.4.1 了解需求 80
3.4.2 可視化設(shè)計(jì) 82
3.5 應(yīng)用實(shí)踐 82
3.5.1 折線圖 83
3.5.2 散點(diǎn)圖 84
3.5.3 柱狀圖 85
3.5.4 詞云圖 86
3.5.5 雷達(dá)圖 88
第4章 大數(shù)據(jù)安全 91
4.1 大數(shù)據(jù)安全概述 92
4.1.1 保密性 92
4.1.2 完整性 93
4.1.3 可用性 93
4.2 基本的密碼技術(shù) 93
4.2.1 加密技術(shù) 93
4.2.2 數(shù)字簽名技術(shù) 94
4.2.3 Hash函數(shù)和MAC算法 95
4.3 全同態(tài)加密技術(shù) 95
4.3.1 基本定義 95
4.3.2 全同態(tài)加密技術(shù)原理 96
4.3.3 全同態(tài)加密技術(shù)的應(yīng)用 98
4.4 安全多方計(jì)算 100
4.4.1 基本定義 100
4.4.2 安全多方計(jì)算原理 100
4.4.3 安全多方計(jì)算的應(yīng)用 102
4.5 差分隱私 103
4.5.1 基本定義 104
4.5.2 差分隱私原理 105
4.5.3 差分隱私的應(yīng)用 107
4.6 區(qū)塊鏈 109
4.6.1 基本定義 110
4.6.2 區(qū)塊鏈技術(shù)原理 111
4.6.3 區(qū)塊鏈技術(shù)的應(yīng)用 112
第5章 線性回歸分析 119
5.1 一元線性回歸 120
5.1.1 一元線性回歸概述 120
5.1.2 一元線性回歸的參數(shù)估計(jì) 123
5.1.3 一元線性回歸模型的檢驗(yàn) 125
5.1.4 一元線性回歸的預(yù)測 127
5.2 多元線性回歸分析 128
5.2.1 多元線性回歸模型及假定 129
5.2.2 參數(shù)估計(jì) 129
5.2.3 模型檢驗(yàn) 130
5.2.4 預(yù)測 131
5.3 應(yīng)用實(shí)踐 133
5.3.1 基于Lasso回歸的波士頓房價預(yù)測 133
5.3.2 基于線性回歸的降雨量預(yù)測 136
第6章 聚類分析 142
6.1 聚類概述 143
6.2 幾種常用的度量方法 143
6.2.1 歐幾里得距離(Euclidean distance) 144
6.2.2 曼哈頓距離(Manhattan distance) 144
6.2.3 切比雪夫距離(Chebyshev distance) 145
6.2.4 冪距離(Power distance) 145
6.2.5 馬氏距離(Mahalanobis distance) 146
6.2.6 余弦相似度(Cosine similarity) 148
6.2.7 Pearson相關(guān)系數(shù)(Pearson correlation coefficient) 148
6.2.8 Jaccard相似系數(shù)(Jaccard similarity coefficient) 148
6.3 聚類的方法 150
6.3.1 層次聚類 150
6.3.2 密度聚類 151
6.3.3 分割聚類 152
6.4 應(yīng)用實(shí)踐 154
6.4.1 基于DBSCAN密度聚類的鳶尾花品種分類 154
6.4.2 基于聚類和可視化的世界國家幸福指數(shù)分析 157
第7章 關(guān)聯(lián)規(guī)則分析 164
7.1 關(guān)聯(lián)規(guī)則分析概述 165
7.2 關(guān)聯(lián)規(guī)則分析常用的基本概念 166
7.3 基于Apriori算法的關(guān)聯(lián)規(guī)則分析 168
7.3.1 連接(linking)步驟 168
7.3.2 剪枝(pruning)步驟 169
7.3.3 Apriori算法處理流程 169
7.3.4 Apriori算法實(shí)例 170
7.3.5 由頻繁項(xiàng)集生成關(guān)聯(lián)規(guī)則 172
7.4 改進(jìn)的Apriori算法 172
7.4.1 基于劃分的方法 172
7.4.2 基于抽樣的方法 173
7.4.3 增量更新的方法 173
7.4.4 概念層次的方法 174
7.4.5 基于散列和壓縮技術(shù)的方法 174
7.5 基于FP-Growth算法的關(guān)聯(lián)規(guī)則分析 175
7.6 多維和多層關(guān)聯(lián)規(guī)則 177
7.6.1 多維關(guān)聯(lián)規(guī)則挖掘 177
7.6.2 多層關(guān)聯(lián)規(guī)則挖掘 178
7.7 應(yīng)用實(shí)踐 179
7.7.1 基于Apriori算法的用戶購物關(guān)聯(lián)度分析 179
7.7.2 基于FP-Growth算法的用戶購物關(guān)聯(lián)度分析 183
第8章 分類與預(yù)測 195
8.1 分類問題評價準(zhǔn)則 196
8.2 線性分類 198
8.2.1 Logistic模型 199
8.2.2 判別分析 202
8.3 決策樹 206
8.3.1 決策樹的概念及基本算法 206
8.3.2 基于信息熵的決策樹歸納算法 208
8.3.3 決策樹修剪 212
8.3.4 提取決策規(guī)則 212
8.3.5 決策樹的改進(jìn) 213
8.4 AdaBoost算法 215
8.5 隨機(jī)森林算法 217
8.5.1 設(shè)計(jì)隨機(jī)森林分類器 217
8.5.2 構(gòu)建隨機(jī)森林 218
8.6 應(yīng)用實(shí)踐 223
8.6.1 基于隨機(jī)森林算法預(yù)測是否被錄取 223
8.6.2 基于決策樹算法預(yù)測是否被錄取 227
第9章 時間序列分析 231
9.1 時間序列分析概述 232
9.2 ARIMA模型 233
9.2.1 ARIMA模型的基本概念 233
9.2.2 ARIMA模型預(yù)測步驟 234
9.2.3 預(yù)測實(shí)例 234
9.3 HMM 241
9.3.1 HMM的基本概念 241
9.3.2 HMM的基本問題 243
9.3.3 HMM基本問題的解法 244
9.4 動態(tài)貝葉斯網(wǎng)絡(luò) 248
9.4.1 動態(tài)貝葉斯網(wǎng)絡(luò)的基本概念 248
9.4.2 動態(tài)貝葉斯網(wǎng)絡(luò)的學(xué)習(xí) 250
9.4.3 動態(tài)貝葉斯網(wǎng)絡(luò)的推理 252
9.5 應(yīng)用實(shí)踐 252
9.5.1 基于ARIMA模型的二氧化碳濃度預(yù)測 252
9.5.2 基于HMM的比特幣投資預(yù)測 258
第10章 大數(shù)據(jù)工具 271
10.1 分布式系統(tǒng)概述 272
10.2 Hadoop概述 273
10.3 Hadoop偽分布式的安裝和配置 273
10.3.1 安裝前準(zhǔn)備 273
10.3.2 安裝Hadoop 275
10.3.3 偽分布式配置 275
10.4 MapReduce 277
10.4.1 MapReduce任務(wù)的工作流程 278
10.4.2 MapReduce編程 280
10.5 利用MapReduce中的矩陣相乘 281
10.5.1 數(shù)據(jù)準(zhǔn)備 281
10.5.2 矩陣的存儲方式 282
10.6 Hive 286
10.6.1 Hive簡介 286
10.6.2 數(shù)據(jù)存儲 287
10.6.3 用Python執(zhí)行HQL命令 288
10.6.4 必知的HQL知識 289
10.6.5 HQL實(shí)例 294
10.7 HBase 295
10.7.1 數(shù)據(jù)模型 296
10.7.2 HBase的特點(diǎn) 297
10.7.3 獲取數(shù)據(jù) 297
10.7.4 存儲數(shù)據(jù) 298
第11章 基于卷積神經(jīng)網(wǎng)絡(luò)和深度
哈希編碼的圖像檢索方法 301
11.1 圖像檢索方法的發(fā)展歷程 302
11.2 卷積深度哈希網(wǎng)絡(luò)的基本框架 303
11.2.1 卷積子網(wǎng)絡(luò) 303
11.2.2 損失函數(shù) 304
11.2.3 哈希層 304
11.3 實(shí)驗(yàn)結(jié)果與性能分析 305
11.3.1 神經(jīng)網(wǎng)絡(luò)參數(shù) 305
11.3.2 數(shù)據(jù)庫和評價指標(biāo) 305
11.3.3 實(shí)驗(yàn)結(jié)果分析 306
第12章 蛋白質(zhì)作用網(wǎng)絡(luò)模型 310
第13章 基于改進(jìn)的長短期記憶網(wǎng)絡(luò)的道路交通事故預(yù)測模型 322
第14章 大數(shù)據(jù)工作流的性能建模和預(yù)測 364
附錄 數(shù)學(xué)基礎(chǔ)知識 379
參考文獻(xiàn) 386