大數(shù)據(jù)分析技術(shù)基礎(chǔ)
定 價:39 元
叢書名:普通高等教育人工智能與大數(shù)據(jù)系列教材
- 作者:榮垂田
- 出版時間:2021/8/1
- ISBN:9787111685586
- 出 版 社:機(jī)械工業(yè)出版社
- 中圖法分類:TP274
- 頁碼:
- 紙張:膠版紙
- 版次:
- 開本:16開
大數(shù)據(jù)已發(fā)展成為一個學(xué)科。本書作為該領(lǐng)域的入門教材,在內(nèi)容上盡可能覆蓋大數(shù)據(jù)分析的基本理論和基本技術(shù)。全書共9章:第1章介紹大數(shù)據(jù)發(fā)展的背景和相關(guān)的理論知識;第2章介紹大數(shù)據(jù)的采集方法,以及數(shù)據(jù)采集案例;第3章介紹大數(shù)據(jù)處理平臺Hadoop,以及Hadoop在不同系統(tǒng)平臺上的安裝和部署方法;第4章介紹MapReduce編程方法和開發(fā)工具,以及MapReduce編程實(shí)例;第5章介紹HDFS及其相關(guān)的操作方法;第6章介紹HBase及其相關(guān)的操作方法;第7章介紹Hive及其在不同平臺上的安裝和部署方法、應(yīng)用案例;第8章介紹大數(shù)據(jù)處理平臺Spark,以及Spark編程實(shí)例;第9章介紹NoSQL數(shù)據(jù)庫,以及典型的NoSQL數(shù)據(jù)庫系統(tǒng)。
本書可作為高等學(xué)校計(jì)算機(jī)、數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)及人工智能或相關(guān)專業(yè)的本科生或研究生教材,也可供對大數(shù)據(jù)分析感興趣的工程技術(shù)人員閱讀參考。
本書以大數(shù)據(jù)的基本概念以及大數(shù)據(jù)分析過程中常用的技術(shù)和平臺為主線進(jìn)行組織和編寫,以期讓學(xué)生掌握大數(shù)據(jù)分析的基本理論,培養(yǎng)學(xué)生的大數(shù)據(jù)分析技能。
大數(shù)據(jù)分析是一門綜合性的技術(shù),涉及數(shù)據(jù)的收集、整理、組織、存儲、分析、挖掘以及可視化等方面,需要學(xué)生具備相關(guān)的基礎(chǔ)理論知識和技能,包括操作系統(tǒng)、編程語言、數(shù)據(jù)庫、計(jì)算機(jī)網(wǎng)絡(luò)等。因此,本書適合大學(xué)三年級以上的計(jì)算機(jī)、數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)以及人工智能或相關(guān)專業(yè)的本科生和研究生,以及具有相關(guān)知識背景的希望從事大數(shù)據(jù)分析工作的讀者閱讀。
本書共9章:第1章介紹大數(shù)據(jù)發(fā)展的背景和相關(guān)的理論知識;第2章介紹大數(shù)據(jù)的采集,包括大數(shù)據(jù)的來源、采集工具、預(yù)處理方法,以及數(shù)據(jù)采集的實(shí)際案例;第3章介紹大數(shù)據(jù)處理平臺Hadoop,包括Hadoop的發(fā)展、特點(diǎn)、體系結(jié)構(gòu),以及Hadoop在不同系統(tǒng)平臺上的安裝和部署方法;第4章介紹MapReduce編程方法,包括MapReduce概述,開發(fā)工具的安裝和環(huán)境配置,MapReduce編程實(shí)例,以及MapReduce應(yīng)用程序的調(diào)試和運(yùn)行方法;第5章介紹分布式文件系統(tǒng)HDFS,包括HDFS概述和特點(diǎn)、架構(gòu),HDFS支持的文件類型,以及HDFS的Shell操作和應(yīng)用程序的訪問方式;第6章介紹HBase,包括HBase概述、架構(gòu)和特點(diǎn),以及HBase Shell操作和應(yīng)用程序的訪問方法;第7章介紹Hive,包括Hive概述、體系結(jié)構(gòu)、運(yùn)行模式,Hive在不同系統(tǒng)平臺上的安裝和部署,以及應(yīng)用案例;第8章介紹大數(shù)據(jù)處理平臺Spark,包括Spark概述、Spark的安裝和部署、Spark開發(fā)環(huán)境,以及編程實(shí)例。第9章介紹NoSQL數(shù)據(jù)庫,包括NoSQL數(shù)據(jù)庫概述,MongoDB、Redis和Memcached概述、應(yīng)用場景、數(shù)據(jù)類型及操作、安裝方法和使用實(shí)例。
本書通過大量的實(shí)踐操作,培養(yǎng)學(xué)生分析問題和解決問題的能力。第1章是概述,其余各章節(jié)除了基礎(chǔ)理論知識還包括實(shí)踐操作。在每章后,都給出了相關(guān)的習(xí)題,以幫助學(xué)生鞏固和理解本章的內(nèi)容。
大數(shù)據(jù)是一門綜合性的技術(shù),現(xiàn)在已經(jīng)發(fā)展成一個獨(dú)立的學(xué)科數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)。本書作為大數(shù)據(jù)分析的入門讀物和基礎(chǔ)教材,不可能覆蓋大數(shù)據(jù)分析涉及的全部知識,有一些重要、前沿的材料未能引入。希望讀者在閱讀本書的基礎(chǔ)上自主學(xué)習(xí)更新的、更高級的、更加專業(yè)的知識。
本書的主要內(nèi)容是筆者在工作和教學(xué)的過程中逐漸積累而成的,書中存在謬誤在所難免,敬請讀者見諒。
編 者
前 言
第1章 大數(shù)據(jù)概述 1
11 大數(shù)據(jù)時代 1
111 大數(shù)據(jù)的發(fā)展歷程 1
112 大數(shù)據(jù)發(fā)展的內(nèi)在驅(qū)動力 2
12 大數(shù)據(jù)的相關(guān)概念 6
121 大數(shù)據(jù)的5V特征 6
122 大數(shù)據(jù)的相關(guān)定義 6
13 大數(shù)據(jù)的影響 8
14 大數(shù)據(jù)分析 9
141 大數(shù)據(jù)分析的特點(diǎn) 9
142 大數(shù)據(jù)分析的流程 9
143 大數(shù)據(jù)分析的核心技術(shù) 10
144 大數(shù)據(jù)分析的計(jì)算模式 11
15 大數(shù)據(jù)的行業(yè)應(yīng)用 12
151 社交大數(shù)據(jù) 12
152 醫(yī)療大數(shù)據(jù) 13
153 房地產(chǎn)大數(shù)據(jù) 13
16 大數(shù)據(jù)與其他領(lǐng)域的關(guān)系 14
161 云計(jì)算、大數(shù)據(jù)和物聯(lián)網(wǎng) 14
162 大數(shù)據(jù)與人工智能 16
習(xí)題 16
第2章 大數(shù)據(jù)的采集 18
21 大數(shù)據(jù)的來源 18
22 大數(shù)據(jù)采集工具 19
23 大數(shù)據(jù)預(yù)處理 19
24 Nutch應(yīng)用案例 20
241 Nutch的安裝和配置 21
242 Nutch爬取與內(nèi)容解析 23
25 Scrapy應(yīng)用案例 25
251 Scrapy框架概述 25
252 Scrapy的安裝和配置 27
253 Scrapy爬取實(shí)例 27
254 總結(jié) 35
習(xí)題 36
第3章 大數(shù)據(jù)處理平臺
Hadoop 37
31 Hadoop概述 37
311 Hadoop的發(fā)展歷程 37
312 Hadoop的體系結(jié)構(gòu) 38
313 Hadoop的特點(diǎn) 39
32 Hadoop的安裝和配置 40
321 準(zhǔn)備工作 40
322 Hadoop軟件的安裝和配置 42
習(xí)題 64
第4章 MapReduce編程 66
41 MapReduce概述 66
42 開發(fā)工具IntelliJ IDEA 67
43 編程實(shí)例 71
431 MapReduce經(jīng)典入門程序
字?jǐn)?shù)統(tǒng)計(jì)(WordCount) 71
432 MapReduce經(jīng)典進(jìn)階程序 81
433 在集群上運(yùn)行MapReduce
程序 87
習(xí)題 93
第5章 HDFS 94
51 HDFS概述 94
52 HDFS的架構(gòu)及特點(diǎn) 95
53 文件格式及其訪問方法 96
531 TextFile 97
532 SequenceFile 99
533 MapFile 102
534 RCFile 106
54 分布式緩存 109
55 HDFS Shell命令 112
56 HDFS的其他訪問方式 116
習(xí)題 122
第6章 HBase 123
61 HBase概述 123
62 HBase的數(shù)據(jù)模型 124
63 HBase的邏輯結(jié)構(gòu) 125
64 HBase的架構(gòu)及特點(diǎn) 126
65 HBase的安裝與配置 129
66 HBase Shell命令 135
67 使用Java API訪問 HBase 140
習(xí)題 145
第7章 Hive 146
71 Hive概述 146
72 在本地安裝運(yùn)行Hive 147
721 下載源文件 147
722 修改配置文件 148
723 啟動Hive 150
724 創(chuàng)建數(shù)據(jù)庫和文件夾 152
725 建表及加載數(shù)據(jù) 152
726 測試Hive 153
73 在Linux中安裝Hive 155
731 機(jī)器準(zhǔn)備 155
732 Hive安裝包準(zhǔn)備 155
733 修改Hive配置文件 156
734 修改Linux環(huán)境變量 157
735 啟動Hive和相關(guān)測試 158
習(xí)題 159
第8章 大數(shù)據(jù)處理平臺Spark 160
81 Spark概述 160
811 Spark的概念 160
812 學(xué)習(xí)Spark的原因 160
813 Spark組件 161
814 Spark任務(wù)執(zhí)行過程 162
82 Spark本地(Windows)
安裝 163
821 安裝Scala 163
822 安裝Hadoop 164
823 安裝Spark 165
83 Spark集群安裝 166
84 Spark運(yùn)行實(shí)例 169
841 蒙特·卡羅算法求 169
842 WordCount程序 169
習(xí)題 170
第9章 NoSQL數(shù)據(jù)庫 171
91 NoSQL數(shù)據(jù)庫概述 171
911 NoSQL的產(chǎn)生 171
912 互聯(lián)網(wǎng)對關(guān)系數(shù)據(jù)庫提出的
新要求 172
913 NoSQL數(shù)據(jù)庫的分類 172
92 MongoDB 173
921 MongoDB概述 173
922 MongoDB的優(yōu)勢 173
923 MongoDB的安裝 174
924 MongoDB使用實(shí)例 178
93 Redis 180
931 Redis概述 180
932 Redis的應(yīng)用場景 181
933 Redis的數(shù)據(jù)類型及操作 181
934 Redis的安裝 182
935 Redis使用實(shí)例 184
94 Memcached 185
941 Memcached概述 185
942 Memcached的應(yīng)用場景 186
943 Memcached的數(shù)據(jù)類型
及操作 186
944 Memcached的安裝 187
945 Memcached使用實(shí)例 188
習(xí)題 189
參考文獻(xiàn) 190