本書(shū)從概念、思維、存儲(chǔ)和處理、分析與應(yīng)用等方面系統(tǒng)介紹了大數(shù)據(jù)的相關(guān)知識(shí),主要內(nèi)容包括:大數(shù)據(jù)的基本概念,大數(shù)據(jù)思維,大數(shù)據(jù)采集與獲取技術(shù),大數(shù)據(jù)批處理、流式處理和交互式處理框架,Hadoop?項(xiàng)目結(jié)構(gòu)與技術(shù)分布,分布式并行編程MapReduce?模型,Spark?技術(shù)架構(gòu)和基本流程,數(shù)據(jù)特征工程及數(shù)據(jù)可視化等內(nèi)容,通過(guò)大數(shù)據(jù)與人工智能技術(shù)助力新冠疫情防控、非法集資預(yù)警、大型活動(dòng)安全預(yù)警、智慧法院數(shù)據(jù)融合分析與集成應(yīng)用等案例,再現(xiàn)場(chǎng)景、數(shù)據(jù)、數(shù)據(jù)分析特征選擇及分析技術(shù)應(yīng)用的過(guò)程,有助于讀者對(duì)大數(shù)據(jù)技術(shù)、分析及應(yīng)用有更深刻的體會(huì)和了解。本書(shū)可作為高等院校計(jì)算機(jī)、大數(shù)據(jù)等相關(guān)專業(yè)的大數(shù)據(jù)課程導(dǎo)論教材,也可供相關(guān)技術(shù)人員參考。
方建文,男,所長(zhǎng)/教授,衢州學(xué)院電氣與信息工程學(xué)院,獲得浙江大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)專業(yè) 工學(xué)博士
第1章 大數(shù)據(jù)概述 1
1.1 數(shù)據(jù) 1
1.1.1 數(shù)據(jù)的概念 1
1.1.2 大數(shù)據(jù)的概念 1
1.2 大數(shù)據(jù)發(fā)展的技術(shù)背景 2
1.2.1 互聯(lián)網(wǎng)技術(shù)的發(fā)展 2
1.2.2 存儲(chǔ)技術(shù)的發(fā)展 2
1.2.3 計(jì)算能力的發(fā)展 2
1.3 大數(shù)據(jù)的主要來(lái)源 3
1.3.1 互聯(lián)網(wǎng)大數(shù)據(jù) 3
1.3.2 傳統(tǒng)行業(yè)大數(shù)據(jù) 3
1.3.3 音頻、視頻和數(shù)據(jù) 4
1.3.4 移動(dòng)設(shè)備的實(shí)時(shí)記錄與跟蹤 4
1.4 大數(shù)據(jù)的特征 5
1.4.1 規(guī)模性 5
1.4.2 多樣性 6
1.4.3 高速性 6
1.4.4 價(jià)值密度低 6
1.5 大數(shù)據(jù)的應(yīng)用 6
1.5.1 大數(shù)據(jù)的應(yīng)用環(huán)境 6
1.5.2 大數(shù)據(jù)的應(yīng)用領(lǐng)域 7
1.6 中國(guó)的大數(shù)據(jù)產(chǎn)業(yè)鏈 7
1.7 我國(guó)大數(shù)據(jù)的發(fā)展態(tài)勢(shì) 10
1.8 大數(shù)據(jù)與數(shù)字經(jīng)濟(jì) 12
第2章 大數(shù)據(jù)思維 14
2.1 大數(shù)據(jù)的思維特點(diǎn) 14
2.1.1 大數(shù)據(jù)的總體思維 14
2.1.2 大數(shù)據(jù)的非精確思維 15
2.1.3 大數(shù)據(jù)的非因果性思維 15
2.1.4 以數(shù)據(jù)為中心 16
2.1.5 大數(shù)據(jù)的運(yùn)營(yíng)思維 16
2.1.6 數(shù)據(jù)的收集 16
2.1.7 數(shù)據(jù)的分類 16
2.2 大數(shù)據(jù)的應(yīng)用思維 17
2.3 大數(shù)據(jù)的價(jià)值思維 19
2.3.1 識(shí)別與串聯(lián)價(jià)值 19
2.3.2 描述價(jià)值 19
2.3.3 時(shí)間價(jià)值 19
2.3.4 組合價(jià)值 19
2.3.5 預(yù)測(cè)價(jià)值 20
2.4 大數(shù)據(jù)的分析思維 20
2.5 大數(shù)據(jù)分析的特點(diǎn) 21
第3章 大數(shù)據(jù)采集與獲取技術(shù) 25
3.1 數(shù)據(jù)源分布 25
3.2 內(nèi)部數(shù)據(jù) 26
3.2.1 政府內(nèi)部數(shù)據(jù) 26
3.2.2 各利益主體自營(yíng)數(shù)據(jù) 26
3.2.3 物聯(lián)網(wǎng)數(shù)據(jù) 27
3.2.4 互聯(lián)網(wǎng)數(shù)據(jù) 27
3.3 內(nèi)部數(shù)據(jù)獲取方法 28
3.3.1 內(nèi)部數(shù)據(jù)的ETL技術(shù) 28
3.3.2 常用ETL工具說(shuō)明 30
3.4 外部數(shù)據(jù)及獲取方法 32
3.4.1 網(wǎng)絡(luò)數(shù)據(jù)源的特性與價(jià)值 32
3.4.2 網(wǎng)絡(luò)爬蟲(chóng) 33
3.4.3 網(wǎng)絡(luò)爬蟲(chóng)應(yīng)用注意事項(xiàng) 34
3.5 深網(wǎng)的數(shù)據(jù)及獲取的方法 35
3.5.1 深網(wǎng)的含義 35
3.5.2 深網(wǎng)數(shù)據(jù)的特點(diǎn) 36
3.5.3 深網(wǎng)數(shù)據(jù)的獲取方法 36
第4章 大數(shù)據(jù)存儲(chǔ)與管理技術(shù) 38
4.1 數(shù)據(jù)存儲(chǔ)的基本概念 38
4.1.1 存儲(chǔ)容量 38
4.1.2 存儲(chǔ)性能 38
4.1.3 存儲(chǔ)可靠性和可用性 39
4.1.4 存儲(chǔ)成本 40
4.2 常用的數(shù)據(jù)存儲(chǔ)介質(zhì) 40
4.2.1 機(jī)械硬盤(pán) 40
4.2.2 固態(tài)硬盤(pán) 41
4.2.3 可記錄光盤(pán) 42
4.2.4 U盤(pán) 42
4.2.5 閃存卡 43
4.2.6 數(shù)據(jù)存儲(chǔ)介質(zhì)的選擇原則 43
4.3 數(shù)據(jù)存儲(chǔ)模式 43
4.3.1 DAS 44
4.3.2 NAS 45
4.3.3 SAN 46
4.3.4 存儲(chǔ)模型選擇 47
4.4 大數(shù)據(jù)管理技術(shù) 47
4.1.1 文件系統(tǒng) 47
4.4.2 分布式文件系統(tǒng) 48
4.4.3 數(shù)據(jù)庫(kù) 51
4.4.4 鍵-值數(shù)據(jù)庫(kù) 52
4.4.5 分布式數(shù)據(jù)庫(kù) 53
4.4.6 關(guān)系型數(shù)據(jù)庫(kù) 54
4.4.7 數(shù)據(jù)倉(cāng)庫(kù) 55
4.4.8 文檔數(shù)據(jù)庫(kù) 56
4.4.9 圖形數(shù)據(jù)庫(kù) 57
4.4.10 云存儲(chǔ) 58
第5章 大數(shù)據(jù)處理技術(shù) 61
5.1 大數(shù)據(jù)處理框架分類 61
5.1.1 批處理框架 61
5.1.2 流式處理框架 62
5.1.3 交互式處理框架 63
5.2 Hadoop 63
5.2.1 Hadoop?項(xiàng)目結(jié)構(gòu)及技術(shù)分布 64
5.2.2 MapReduce?模型 65
5.3 Spark 67
5.3.1 技術(shù)架構(gòu) 68
5.3.2 基本流程 68
5.3.3 Spark?程序運(yùn)行流程 69
第6章 大數(shù)據(jù)分析技術(shù) 71
6.1 大數(shù)據(jù)分析的概念 71
6.2 大數(shù)據(jù)的處理流程 71
6.3 大數(shù)據(jù)分析的方法 72
6.4 數(shù)據(jù)特征工程 73
6.4.1 特征構(gòu)建 74
6.4.2 特征選擇 75
6.4.3 特征提取 76
6.5 大數(shù)據(jù)分析的主要技術(shù) 76
6.5.1 深度學(xué)習(xí) 76
6.5.2 知識(shí)計(jì)算 80
6.6 數(shù)據(jù)可視化 89
6.6.1 數(shù)據(jù)可視化分析方法 90
6.6.2 可視化分析的常用工具 92
6.6.3 數(shù)據(jù)可視化的應(yīng)用舉例 93
第7章 大數(shù)據(jù)安全 94
7.1 大數(shù)據(jù)安全概述 94
7.1.1 大數(shù)據(jù)安全的意義 95
7.1.2 大數(shù)據(jù)安全面臨的問(wèn)題 95
7.2 大數(shù)據(jù)隱私保護(hù) 97
7.2.1 數(shù)據(jù)保護(hù)與保密 98
7.2.2 國(guó)內(nèi)隱私保護(hù)相關(guān)政策法規(guī) 98
7.3 典型案例 100
7.3.1 棱鏡門(mén)事件 100
7.3.2 維基解密 101
7.3.3 Facebook?數(shù)據(jù)濫用事件 101
7.3.4 手機(jī)應(yīng)用軟件過(guò)度采集個(gè)人信息 102
7.3.5 12306?數(shù)據(jù)泄露 103
7.3.6 免費(fèi)Wi-Fi?竊取用戶信息 103
7.3.7 收集個(gè)人隱私信息的“探針盒子” 104
第8章 大數(shù)據(jù)與云計(jì)算、物聯(lián)網(wǎng)、人工智能 105
8.1 云計(jì)算 105
8.1.1 云計(jì)算的概念 105
8.1.2 云計(jì)算的特點(diǎn) 105
8.1.3 云計(jì)算的分類 106
8.1.4 云計(jì)算的服務(wù)模式 107
8.1.5 主流的云計(jì)算廠商 108
8.2 物聯(lián)網(wǎng) 111
8.2.1 物聯(lián)網(wǎng)的概念 111
8.2.2 物聯(lián)網(wǎng)的核心技術(shù) 111
8.2.3 物聯(lián)網(wǎng)的特點(diǎn) 112
8.3 人工智能 113
8.3.1 人工智能的概念 113
8.3.2 人工智能的關(guān)鍵技術(shù) 114
8.4 大數(shù)據(jù)與云計(jì)算、物聯(lián)網(wǎng)和人工智能的關(guān)系 116
第9章 大數(shù)據(jù)應(yīng)用 118
9.1 大數(shù)據(jù)與人工智能技術(shù)在新冠疫情防控中的應(yīng)用 118
9.1.1 助力新型冠狀病毒疫情防控的進(jìn)展 118
9.1.2 助力新型冠狀病毒智能醫(yī)療診斷服務(wù) 119
9.1.3 助力新型冠狀病毒疫苗研發(fā)和藥物篩選 120
9.1.4 助力抗疫資源的生產(chǎn)組織與調(diào)度 120
9.1.5 助力新型冠狀病毒疫情溯源與監(jiān)測(cè)預(yù)警 121
9.2 大數(shù)據(jù)用于非法集資預(yù)警 122
9.2.1 挑戰(zhàn) 123
9.2.2 實(shí)施過(guò)程/解決方案 123
9.2.3 效果總結(jié) 126
9.3 大數(shù)據(jù)在大型活動(dòng)安全預(yù)警中的應(yīng)用 126
9.3.1 問(wèn)題分析 127
9.3.2 總體架構(gòu) 127
9.3.3 核心技術(shù) 129
9.3.4 實(shí)際應(yīng)用 130
9.4 ?“智慧法院”數(shù)據(jù)融合分析與集成應(yīng)用 130
9.4.1 應(yīng)用背景 130
9.4.2 ?“智慧法院”數(shù)據(jù)融合分析及集成應(yīng)用示范平臺(tái)架構(gòu) 131
9.4.3 共性關(guān)鍵技術(shù) 133
9.4.4 應(yīng)用案例 135
參考文獻(xiàn) 138