本書是將大數(shù)據(jù)基本理論與基本應(yīng)用有機結(jié)合的教材,按照定義、特征、技術(shù)流程和典型案例分析的方式編寫,抽絲剝繭,由易到難,有助于讀者理解和掌握大數(shù)據(jù)技術(shù)。本書的一大亮點是每章中都使用圖表對大數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)處理方式進行對比。另外,本書注重啟發(fā)式的學(xué)習(xí)策略,便于讀者理解和掌握。全書在每一章均附有實際應(yīng)用案例與關(guān)鍵詞注釋,方便讀者查閱和自學(xué),同時配備了習(xí)題和參考答案。本書適合作為普通高校大數(shù)據(jù)技術(shù)的基礎(chǔ)教材,也可以作為職業(yè)培訓(xùn)教育及相關(guān)技術(shù)人員的參考用書。
習(xí)近平總書記在黨的十九大報告中提出要推動互聯(lián)網(wǎng)、大數(shù)據(jù)、人工智能和實體經(jīng)濟深度融合,強調(diào)貫徹新發(fā)展理念,建設(shè)現(xiàn)代化經(jīng)濟體系。大數(shù)據(jù)、VR(虛擬現(xiàn)實)、AR(增強現(xiàn)實)和人工智能等信息技術(shù)必將為社會發(fā)展和時代進步注入新的生機和血液。
為此,本書圍繞大數(shù)據(jù)應(yīng)用,從理論、相關(guān)技術(shù)和實際應(yīng)用三個層面進行簡明扼要的闡述,目的是讓廣大師生對大數(shù)據(jù)的應(yīng)用方法和相關(guān)知識有所了解,更好地把握科學(xué)發(fā)展的方向。
大數(shù)據(jù)技術(shù)教學(xué)在中國醫(yī)科大學(xué)已經(jīng)連續(xù)開展五年,已經(jīng)成為大學(xué)計算機教育的重要組成部分。為國家培養(yǎng)了一批掌握新IT發(fā)展動態(tài)和技能的醫(yī)學(xué)人才,同時也積累了一定的教學(xué)經(jīng)驗。
在編寫原則上,本書注重知識的系統(tǒng)性、針對性、理論性和應(yīng)用性。本書倡導(dǎo)啟發(fā)式的學(xué)習(xí)策略,通過案例啟發(fā)學(xué)生的學(xué)習(xí)興趣,檢驗其學(xué)習(xí)效果,提高其學(xué)習(xí)能力。
本書內(nèi)容包括12章:第1章大數(shù)據(jù)概論主要講解了大數(shù)據(jù)技術(shù)概念、架構(gòu)、整體技術(shù);第2章大數(shù)據(jù)采集及預(yù)處理主要講解了大數(shù)據(jù)采集的概念、數(shù)據(jù)來源和技術(shù)方法;第3章大數(shù)據(jù)分析概論主要講解了大數(shù)據(jù)分析的方法、流程、主要技術(shù);第4章大數(shù)據(jù)可視化主要講解了大數(shù)據(jù)可視化的過程和可視化工具Tableau;第5章Hadoop概論主要講解了Hadoop的架構(gòu);第6章HDFS和Common概論主要講解了HDFS的體系結(jié)構(gòu)、工作原理和Common模塊;第7章MapReduce概論主要講解了MapReduce的架構(gòu)、原理和工作流程;第8章NoSQL概論主要講解了NoSQL的基本知識和典型工具;第9章Spark概論主要講解了Spark生態(tài)系統(tǒng)的組成;第10章云計算與大數(shù)據(jù)主要講解了云計算的服務(wù)模式、部署模式;第11章典型大數(shù)據(jù)解決方案主要講解了各種大數(shù)據(jù)解決方案;第12章大數(shù)據(jù)應(yīng)用案例分析(醫(yī)療領(lǐng)域)主要講解了大數(shù)據(jù)在醫(yī)療領(lǐng)域的應(yīng)用案例。
本書由婁巖任主編,由徐東雨任副主編,鄭琳琳、劉尚輝、李靜、馬瑾、丁林、曹陽、龐東興、張志常、霍妍參與編寫。具體編寫分工如下:第1章由婁巖編寫,第2章由鄭琳琳編寫,第3章由劉尚輝編寫,第4章由李靜編寫,第5章由馬瑾編寫,第6章由丁林編寫,第7章由徐東雨編寫,第8章由曹陽編寫,第9章由龐東興編寫,第10章由張志常編寫,第11章、第12章由霍妍編寫。
中國鐵道出版社對本書的出版做了充分論證,精心策劃。在此向所有參加編寫的同事們、幫助和指導(dǎo)過我們工作的朋友們和參考文獻的作者前輩們表示衷心的感謝!
由于編者水平有限,加之時間倉促,書中難免存在疏漏之處,懇請廣大讀者批評斧正!
婁巖
2018年6月
第1章大數(shù)據(jù)概論
1.1大數(shù)據(jù)技術(shù)簡介
1.1.1IT產(chǎn)業(yè)的發(fā)展簡史
1.1.2大數(shù)據(jù)的主要來源
1.1.3數(shù)據(jù)生成的三種主要
方式
1.1.4大數(shù)據(jù)的特點
1.1.5大數(shù)據(jù)的處理流程
1.1.6大數(shù)據(jù)的數(shù)據(jù)格式
1.1.7大數(shù)據(jù)的基本特征
1.1.8大數(shù)據(jù)的應(yīng)用領(lǐng)域
1.2大數(shù)據(jù)的技術(shù)架構(gòu)
1.3大數(shù)據(jù)的整體技術(shù)
1.4大數(shù)據(jù)分析的四種典型工具
簡介
1.5大數(shù)據(jù)未來發(fā)展趨勢
1.5.1數(shù)據(jù)資源化
1.5.2數(shù)據(jù)科學(xué)和數(shù)據(jù)聯(lián)盟的
成立
1.5.3大數(shù)據(jù)隱私和安全
問題
1.5.4開源軟件成為推動大數(shù)
據(jù)發(fā)展的動力
1.5.5大數(shù)據(jù)在多方位改善人
們的生活
本章小結(jié)
習(xí)題1
第2章大數(shù)據(jù)采集及預(yù)處理
2.1數(shù)據(jù)采集簡介
2.1.1數(shù)據(jù)采集
2.1.2數(shù)據(jù)采集的數(shù)據(jù)來源
2.1.3數(shù)據(jù)采集的技術(shù)方法
2.2大數(shù)據(jù)的預(yù)處理
2.3數(shù)據(jù)采集及預(yù)處理的主要
工具
本章小結(jié)
習(xí)題2
第3章大數(shù)據(jù)分析概論
3.1大數(shù)據(jù)分析簡介
3.1.1大數(shù)據(jù)分析
3.1.2大數(shù)據(jù)分析的基本
方法
3.1.3大數(shù)據(jù)處理流程
3.2大數(shù)據(jù)分析的主要技術(shù)
3.2.1深度學(xué)習(xí)
3.2.2知識計算
3.3大數(shù)據(jù)分析處理系統(tǒng)簡介
3.3.1批量數(shù)據(jù)及處理系統(tǒng)
3.3.2流式數(shù)據(jù)及處理系統(tǒng)
3.3.3交互式數(shù)據(jù)及處理
系統(tǒng)
3.3.4圖數(shù)據(jù)及處理系統(tǒng)
3.4大數(shù)據(jù)分析的應(yīng)用
本章小結(jié)
習(xí)題3
第4章大數(shù)據(jù)可視化
4.1大數(shù)據(jù)可視化簡介
4.2大數(shù)據(jù)可視化工具
Tableau
本章小結(jié)
習(xí)題4
第5章Hadoop概論
5.1Hadoop簡介
5.1.1Hadoop簡史
5.1.2Hadoop應(yīng)用和發(fā)展
趨勢
5.2Hadoop的架構(gòu)與組成
5.2.1Hadoop架構(gòu)介紹
5.2.2Hadoop組成模塊
5.3Hadoop應(yīng)用分析
本章小結(jié)
習(xí)題5
大數(shù)據(jù)應(yīng)用基礎(chǔ)
目錄
第6章HDFS和Common概論
6.1HDFS簡介
6.1.1HDFS的相關(guān)概念
6.1.2HDFS特性
6.1.3HDFS體系結(jié)構(gòu)
6.1.4HDFS的工作原理
6.1.5HDFS的相關(guān)技術(shù)
6.2Common簡介
本章小結(jié)
習(xí)題6
第7章MapReduce概論
7.1MapReduce簡介
7.1.1MapReduce
7.1.2MapReduce功能、特征和
局限性
7.2Map和Reduce任務(wù)
7.3MapReduce架構(gòu)和工作
流程
7.3.1MapReduce的架構(gòu)
7.3.2MapReduce的工作
流程
本章小結(jié)
習(xí)題7
第8章NoSQL概論
8.1NoSQL簡介
8.1.1NoSQL的含義
8.1.2NoSQL的產(chǎn)生
8.1.3NoSQL的特點
8.2NoSQL技術(shù)基礎(chǔ)
8.2.1大數(shù)據(jù)的一致性策略
8.2.2大數(shù)據(jù)的分區(qū)與放置
策略
8.2.3大數(shù)據(jù)的復(fù)制與容錯
技術(shù)
8.2.4大數(shù)據(jù)的緩存技術(shù)
8.3NoSQL的類型
8.3.1鍵值存儲
8.3.2列存儲
8.3.3面向文檔存儲
8.3.4圖形存儲
8.4典型的NoSQL工具
8.4.1Redis
8.4.2Bigtable
8.4.3CouchDB
本章小結(jié)
習(xí)題8
第9章Spark概論
9.1Spark平臺
9.1.1Spark簡介
9.1.2Spark發(fā)展
9.1.3Scala語言
9.2Spark與Hadoop
9.2.1Hadoop的局限與不足
9.2.2Spark的優(yōu)點
9.2.3Spark速度比Hadoop快的
原因分析
9.3Spark處理架構(gòu)及其生態(tài)
系統(tǒng)
9