為促進(jìn)中國(guó)城市軌道交通自動(dòng)化水平及系統(tǒng)設(shè)備研發(fā)制造能力的提升,逐步形成全自動(dòng)運(yùn)行系統(tǒng)及其配套的產(chǎn)業(yè)鏈,并滿足城市軌道交通全自動(dòng)運(yùn)行的需求,中國(guó)城市軌道交通協(xié)會(huì)組織編寫了城市軌道交通全自動(dòng)運(yùn)行系統(tǒng)規(guī)范。本書的內(nèi)容包括范圍、規(guī)范性引用文件、術(shù)語(yǔ)與縮略語(yǔ)、一般要求、測(cè)試環(huán)境及條件、測(cè)試需求等。
引導(dǎo)性:引領(lǐng)讀者進(jìn)入大數(shù)據(jù)領(lǐng)域的基礎(chǔ)性讀物
前瞻性:介紹大數(shù)據(jù)新技術(shù)及其行業(yè)應(yīng)用
經(jīng)典性:關(guān)注大數(shù)據(jù)技術(shù)經(jīng)典算法
全球范圍內(nèi),運(yùn)用大數(shù)據(jù)推動(dòng)經(jīng)濟(jì)發(fā)展、完善社會(huì)治理、提升政府服務(wù)和監(jiān)管能 力正成為趨勢(shì),國(guó)內(nèi)外政府相繼制定實(shí)施大數(shù)據(jù)戰(zhàn)略性文件,大力推動(dòng)大數(shù)據(jù)發(fā)展和 應(yīng)用。與之相關(guān)的職業(yè)需求也呈爆發(fā)式增長(zhǎng),根據(jù) IDC(國(guó)際數(shù)據(jù)公司)和 Gartner(高 德納咨詢公司)等發(fā)布的相關(guān)報(bào)告顯示,目前全球云計(jì)算、大數(shù)據(jù)市場(chǎng)規(guī)模已超過 3 000 億美元,而未來潛在市場(chǎng)價(jià)值將達(dá)到萬(wàn)億美元規(guī)模,大數(shù)據(jù)與云計(jì)算專業(yè)將為全 球帶來 440 萬(wàn)個(gè) IT 新崗位和上千萬(wàn)個(gè)非 IT 崗位。2019 年,我國(guó)互聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng) 用戶規(guī)模居全球第一,擁有豐富的數(shù)據(jù)資源和應(yīng)用市場(chǎng)優(yōu)勢(shì),大數(shù)據(jù)部分關(guān)鍵技術(shù)研 發(fā)取得突破,涌現(xiàn)出一批互聯(lián)網(wǎng)創(chuàng)新企業(yè)和創(chuàng)新應(yīng)用,2015 年 11 月 3 日發(fā)布的《中 共中央關(guān)于制定國(guó)民經(jīng)濟(jì)和社會(huì)發(fā)展第十三個(gè)五年規(guī)劃的建議》明確提出實(shí)施國(guó)家大 數(shù)據(jù)戰(zhàn)略。椐預(yù)測(cè),2019 年我國(guó)大數(shù)據(jù)產(chǎn)業(yè)規(guī)模為 7 000 億元,2020 年將突破萬(wàn)億元。
大數(shù)據(jù)成為了繼互聯(lián)網(wǎng)蓬勃發(fā)展以來的又一輪 IT 工業(yè)革命,被人們寄予厚望。大 數(shù)據(jù)技術(shù)包括數(shù)據(jù)的采集、存儲(chǔ)、處理、分析和可視化,本書對(duì)上述內(nèi)容做了詳細(xì)介紹。 數(shù)據(jù)采集部分主要介紹了網(wǎng)絡(luò)數(shù)據(jù)采集技術(shù)和日志數(shù)據(jù)采集技術(shù),同時(shí)討論了數(shù)據(jù)清 洗、數(shù)據(jù)集成、數(shù)據(jù)變換和數(shù)據(jù)規(guī)約等數(shù)據(jù)預(yù)處理技術(shù);數(shù)據(jù)存儲(chǔ)部分主要介紹了大 數(shù)據(jù)分析中所用到的主流分布式文件存儲(chǔ)系統(tǒng),包括 HBase 分布式數(shù)據(jù)庫(kù)、MongoDB 分布式數(shù)據(jù)庫(kù)和 Hive 分布式數(shù)據(jù)倉(cāng)庫(kù),數(shù)據(jù)處理部分討論了數(shù)據(jù)處理平臺(tái)的架構(gòu)設(shè) 計(jì),并分別著重介紹了批處理、流處理和混合處理 3 種流行的大數(shù)據(jù)計(jì)算框架以及它們所對(duì)應(yīng)的典型系統(tǒng):Hadoop、Storm、Spark;大數(shù)據(jù)分析部分重點(diǎn)討論了常用的統(tǒng) 計(jì)數(shù)據(jù)分析方法,包括描述統(tǒng)計(jì)、相關(guān)分析、回歸分析和主成分分析,同時(shí)主要介紹 了幾種經(jīng)典的數(shù)據(jù)挖掘算法,包括 ID3 算法、C4.5 算法、CART 算法、K-Means 算法、 Apriori 算法和神經(jīng)網(wǎng)絡(luò)的常用訓(xùn)練算法;數(shù)據(jù)可視化部分主要介紹了文本可視化、網(wǎng) 絡(luò)可視化、時(shí)空數(shù)據(jù)可視化及多維數(shù)據(jù)可視化等常用可視化方法及相關(guān)工具。與此同 時(shí),針對(duì)大數(shù)據(jù)隱私與安全,介紹了數(shù)據(jù)安全、數(shù)據(jù)隱私、數(shù)據(jù)信息共享與隱私信息 融合以及云環(huán)境下的大數(shù)據(jù)安全與隱私保護(hù)。針對(duì)大數(shù)據(jù)應(yīng)用,相繼討論了大數(shù)據(jù)在 互聯(lián)網(wǎng)商業(yè)中的應(yīng)用,包括用戶畫像、大數(shù)據(jù)精準(zhǔn)營(yíng)銷和互聯(lián)網(wǎng)金融;大數(shù)據(jù)在行業(yè) 中的應(yīng)用,包括教育行業(yè)、電力行業(yè)、醫(yī)療行業(yè)和軍事領(lǐng)域;大數(shù)據(jù)在人工智能方面 的應(yīng)用,包括語(yǔ)音識(shí)別和機(jī)器翻譯、共享經(jīng)濟(jì)和智慧城市。zui后,在大數(shù)據(jù)思維部分, 討論了大數(shù)據(jù)時(shí)代面臨的挑戰(zhàn),探討了大數(shù)據(jù)時(shí)代的思維變革、大數(shù)據(jù)激發(fā)的創(chuàng)造力, 并對(duì)數(shù)據(jù)科學(xué)進(jìn)行了展望。
本書的編寫得到了河南省高等學(xué)校計(jì)算機(jī)教育研究會(huì),中國(guó)鐵道出版社有限公司 領(lǐng)導(dǎo)和編輯的大力支持。中國(guó)科學(xué)院計(jì)算技術(shù)研究所張廣軍研究員、鄭州輕工業(yè)大學(xué) 的吳懷廣博士和張偉偉博士對(duì)本書的編寫提出了許多寶貴的意見和建議,本書的編寫 得到了鄭州輕工業(yè)大學(xué)、鄭州工程技術(shù)學(xué)院等院校的大力支持,在此一并表示衷心的 感謝。
本書由甘勇和陶紅偉確定內(nèi)容的選取和組織,由史雯雋、尚松濤、陳浩然、陶紅偉、 劉家磊和馬江濤具體執(zhí)筆。史文雋編寫第 1 章,尚松濤編寫第 2、3 章,陳浩然編寫第 4 章, 陶紅偉編寫第 5 章,劉家磊編寫第 6、7 章,馬江濤編寫第 8、9 章,zui后由甘勇和陶 紅偉定稿。
本書作者力圖將數(shù)據(jù)科學(xué)與大數(shù)據(jù)的原理、技術(shù)及其應(yīng)用介紹清楚,但由于時(shí)間、 精力、知識(shí)結(jié)構(gòu)有限,書中難免有疏漏之處,懇請(qǐng)讀者批評(píng)指正。
編 者 2019 年 6 月
甘勇:教授、鄭州工程技術(shù)學(xué)院副校長(zhǎng),長(zhǎng)期工作在教學(xué)科研一線,主持的大學(xué)計(jì)算機(jī)和程序設(shè)計(jì)基礎(chǔ)課程被評(píng)為河南省精品課程、河南省精品資源共享課,擔(dān)任教育部計(jì)算機(jī)課程教學(xué)指導(dǎo)委員會(huì)委員、河南省計(jì)算機(jī)類專業(yè)和網(wǎng)絡(luò)空間安全專業(yè)教學(xué)指導(dǎo)委員會(huì)副主任,兼任中國(guó)計(jì)算機(jī)學(xué)會(huì)理事、河南省計(jì)算機(jī)學(xué)會(huì)副理事長(zhǎng)、河南省計(jì)算機(jī)教育研究會(huì)副理事長(zhǎng)。榮獲過優(yōu)秀教學(xué)成果二等獎(jiǎng)、2項(xiàng)河南省優(yōu)秀教學(xué)成果特等獎(jiǎng)、3項(xiàng)河南省優(yōu)秀教學(xué)成果二等獎(jiǎng)。陶紅偉:鄭州輕工業(yè)大學(xué)計(jì)算機(jī)與通信工程學(xué)院副教授、博士,主要研究方向包括大數(shù)據(jù)分析、軟件可信度量與評(píng)估、信息安全。主持省部級(jí)以及橫向項(xiàng)目5項(xiàng),作為主要成員參與國(guó)家863重點(diǎn)項(xiàng)目子課題、國(guó)家自然科學(xué)基金重大研究計(jì)劃集成項(xiàng)目子課題、國(guó)家863項(xiàng)目和國(guó)家自然科學(xué)基金項(xiàng)目等。
第1章 大數(shù)據(jù)與數(shù)據(jù)科學(xué) / 1
1.1 大數(shù)據(jù)概述 / 1
1.1.1 大數(shù)據(jù)的概念 / 2
1.1.2 大數(shù)據(jù)的特征 / 2
1.1.3 大數(shù)據(jù)的結(jié)構(gòu)類型 / 3
1.2 大數(shù)據(jù)的發(fā)展 / 4
1.3 大數(shù)據(jù)處理的挑戰(zhàn) / 5
1.4 數(shù)據(jù)科學(xué)的概念 / 6
1.5 數(shù)據(jù)科學(xué)的由來 / 7
1.6 數(shù)據(jù)科學(xué)的應(yīng)用場(chǎng)景 / 9
1.6.1 行業(yè)數(shù)據(jù) / 9
1.6.2 數(shù)據(jù)服務(wù) / 10
小結(jié) / 11
習(xí)題 / 11
第2章 數(shù)據(jù)采集與數(shù)據(jù)預(yù)處理 / 12
2.1 數(shù)據(jù)采集和數(shù)據(jù)預(yù)處理概述 / 12
2.1.1 數(shù)據(jù)采集概述 / 12
2.1.2 數(shù)據(jù)預(yù)處理概述 / 13
2.2 數(shù)據(jù)采集技術(shù) / 15
2.2.1 網(wǎng)絡(luò)數(shù)據(jù)采集技術(shù) / 15
2.2.2 日志數(shù)據(jù)采集技術(shù) / 23
2.3 數(shù)據(jù)預(yù)處理技術(shù) / 28
2.3.1 數(shù)據(jù)清洗 / 28
2.3.2 數(shù)據(jù)集成 / 30
2.3.3 數(shù)據(jù)變換 / 30
2.3.4 數(shù)據(jù)規(guī)約 / 32
小結(jié) / 33
習(xí)題 / 33
第3章 數(shù)據(jù)存儲(chǔ) / 34
3.1 數(shù)據(jù)存儲(chǔ)概述 34
3.1.1 數(shù)據(jù)存儲(chǔ)的發(fā)展歷程 / 34
3.1.2 數(shù)據(jù)存儲(chǔ)模型 / 36
3.2 大數(shù)據(jù)存儲(chǔ) / 36
3.2.1 海量數(shù)據(jù)存儲(chǔ)關(guān)鍵技術(shù) / 37
3.2.2 分布式文件系統(tǒng) / 37
3.3 分布式數(shù)據(jù)庫(kù) / 41
3.3.1 HBase 分布式數(shù)據(jù)庫(kù) / 42
3.3.2 MongoDB 分布式 數(shù)據(jù)庫(kù) / 45
3.3.3 Hive 分布式數(shù)據(jù) 倉(cāng)庫(kù) / 47
小結(jié) / 49
習(xí)題 / 49
第4章 大數(shù)據(jù)處理平臺(tái) / 50
4.1 概述 / 50
4.2 大數(shù)據(jù)的處理平臺(tái)架構(gòu) / 51
4.2.1 技術(shù)架構(gòu) / 51
4.2.2 開源平臺(tái) / 52
4.3 大數(shù)據(jù)的批量處理 / 54
4.3.1 批量計(jì)算的概念 / 54
4.3.2 批量計(jì)算的軟件系統(tǒng) / 55
4.4 大數(shù)據(jù)的流式計(jì)算 / 63
4.4.1 流式計(jì)算的概念 / 63
4.4.2 流式計(jì)算的軟件系統(tǒng) / 64
4.5 大數(shù)據(jù)的混合處理計(jì)算 / 68
4.5.1 混合處理計(jì)算的概念 / 68
4.5.2 混合處理計(jì)算的軟件系統(tǒng) / 69
小結(jié) / 78
習(xí)題 / 79
第5章 數(shù)據(jù)分析 / 80
5.1 數(shù)據(jù)分析概述 / 80
5.1.1 數(shù)據(jù)分析的概念和作用 / 80
5.1.2 數(shù)據(jù)分析的類型 / 81
5.1.3 數(shù)據(jù)分析的流程 / 81
5.2 統(tǒng)計(jì)數(shù)據(jù)分析方法 / 83
5.2.1 描述統(tǒng)計(jì) / 83
5.2.2 相關(guān)分析 / 84
5.2.3 回歸分析 / 88
5.2.4 主成分分析 / 92
5.3 數(shù)據(jù)挖掘算法 / 96
5.3.1 決策樹 / 96
5.3.2 K-Means 算法 / 101
5.3.3 Apriori 算法 / 106
5.3.4 神經(jīng)網(wǎng)絡(luò) / 111
5.4 數(shù)據(jù)分析工具 / 113
小結(jié) / 114
習(xí)題 / 114
第6章 數(shù)據(jù)可視化 / 117
6.1 數(shù)據(jù)可視化概述 / 117
6.1.1 數(shù)據(jù)可視化的基本特征 / 119
6.1.2 數(shù)據(jù)可視化的作用 / 120
6.1.3 數(shù)據(jù)可視化的流程 / 123
6.2 數(shù)據(jù)可視化方法 / 126
6.2.1 文本可視化 / 126
6.2.2 網(wǎng)絡(luò)可視化 / 129
6.2.3 時(shí)空數(shù)據(jù)可視化 / 131
6.2.4 多維數(shù)據(jù)可視化 / 134
6.3 數(shù)據(jù)可視化軟件與工具 / 136
6.3.1 Excel / 137
6.3.2 NodeXL / 137
6.3.3 Processing / 138
6.3.4 R / 139
6.3.5 ECharts / 139
6.3.6 Wolfram Mathematica / 141
小結(jié) / 141
習(xí)題 / 142
第7章 數(shù)據(jù)安全與隱私 / 143
7.1 大數(shù)據(jù)安全概述 / 143
7.1.1 大數(shù)據(jù)安全體系結(jié)構(gòu) / 148
7.1.2 大數(shù)據(jù)安全 / 150
7.2 數(shù)據(jù)安全協(xié)議 / 157
7.3 數(shù)據(jù)隱私 / 159
7.4 數(shù)據(jù)信息共享與隱私信息融合 / 160
7.5 云環(huán)境下的大數(shù)據(jù)安全與隱私保護(hù) / 163
小結(jié) / 165
習(xí)題 / 165
第8章 大數(shù)據(jù)應(yīng)用 / 166
8.1 互聯(lián)網(wǎng)商業(yè)應(yīng)用 / 166
8.1.1 用戶畫像 / 166
8.1.2 大數(shù)據(jù)精準(zhǔn)營(yíng)銷 / 169
8.1.3 互聯(lián)網(wǎng)金融 / 171
8.2 行業(yè)大數(shù)據(jù) / 173
8.2.1 教育大數(shù)據(jù) / 173
8.2.2 電力大數(shù)據(jù) / 174
8.2.3 醫(yī)療大數(shù)據(jù) / 177
8.3 人工智能應(yīng)用 / 179
8.3.1 語(yǔ)音識(shí)別和機(jī)器翻譯 / 179
8.3.2 共享經(jīng)濟(jì) / 180
8.3.3 智慧城市 / 183
小結(jié) / 187
習(xí)題 / 188
第9章 數(shù)據(jù)思維 / 189
9.1 大數(shù)據(jù)時(shí)代的挑戰(zhàn) / 189
9.2 大數(shù)據(jù)時(shí)代的思維變革 / 194
9.2.1 第四范式 / 194
9.2.2 數(shù)據(jù)的混雜性 / 195
9.2.3 樣本與總體 / 196
9.2.4 數(shù)據(jù)的相關(guān)關(guān)系與因果關(guān)系 / 197
9.2.5 大數(shù)據(jù)與幸存者偏差 / 198
9.3 大數(shù)據(jù)激發(fā)創(chuàng)造力 / 199
9.3.1 大數(shù)據(jù)預(yù)測(cè)電影票房 / 199
9.3.2 利用大數(shù)據(jù)治理紐約 / 200
9.3.3 大數(shù)據(jù)助力總統(tǒng)競(jìng)選 / 202
9.4 數(shù)據(jù)科學(xué)展望 / 204
9.4.1 開放數(shù)據(jù)運(yùn)動(dòng) / 204
9.4.2 數(shù)據(jù)科學(xué)家所需的專業(yè)技能 / 206
9.4.3 數(shù)據(jù)科學(xué)的發(fā)展前景 / 208
小結(jié) 210
習(xí)題 210
參考文獻(xiàn) / 211