本書較為系統(tǒng)地講解了大數(shù)據(jù)處理平臺Hadoop和Spark生態(tài)系統(tǒng)的相關技術原理、使用方法和開發(fā)技術,全書共11章,主要包括大數(shù)據(jù)技術概述、大數(shù)據(jù)處理平臺Hadoop、分布式文件系統(tǒng)HDFS、分布式計算框架MapReduce、Hadoop的發(fā)展和演化、數(shù)據(jù)倉庫Hive、分布式數(shù)據(jù)庫HBase、Spark的基本概念和整體架構(gòu)及集群安裝、Spark核心編程、Spark生態(tài)系統(tǒng)、Flinkk基本概念和體系結(jié)構(gòu)及編程實踐。
隨著計算機及互聯(lián)網(wǎng)的飛速發(fā)展,當今社會已進入大數(shù)據(jù)時代,大數(shù)據(jù)帶來了信息技術的巨大變革,并深刻影響著人類社會生產(chǎn)和生活的方方面面。2020 年,國家推出了新基建戰(zhàn)略,將5G、大數(shù)據(jù)中心、人工智能和工業(yè)互聯(lián)網(wǎng)等列為新型基礎設施建設的重點。在國家政策的引領下,各行各業(yè)都將大數(shù)據(jù)產(chǎn)業(yè)列為優(yōu)先發(fā)展目標,而任何行業(yè)的興起最需要的就是相關人才,特別是會分析數(shù)據(jù)、懂領域業(yè)務的復合型人才,目前大數(shù)據(jù)相關人才供不應求。在新的需求背景下,我國的高等教育也進入一個新的發(fā)展時期,尤其是相關大數(shù)據(jù)與人工智能方面的教育。
本書以大數(shù)據(jù)技術為中心,系統(tǒng)論述了大數(shù)據(jù)處理生態(tài)系統(tǒng)的核心開發(fā)技術。本書共分十一章。第1 章緒論,介紹了大數(shù)據(jù)的發(fā)展背景、大數(shù)據(jù)處理的關鍵技術和系統(tǒng)框架以及大數(shù)據(jù)的應用。第2 章大數(shù)據(jù)處理框架Hadoop,論述了Hadoop 的發(fā)展歷程、生態(tài)系統(tǒng)、特點和應用場景,并論述了Hadoop 集群搭建和安裝配置。第3 章分布式文件系統(tǒng)HDFS,論述了HDFS 的體系結(jié)構(gòu)、工作機制和訪問方式,并用Java 復制文件到HDFS。第4 章分布式計算框架MapReduce,論述了MapReduce 的設計構(gòu)思、運行理論、編程模型和機制,并開發(fā)詞頻統(tǒng)計MapReduce 程序。第5 章Hadoop 的發(fā)展與優(yōu)化,論述了HDFS 的高可用和聯(lián)邦、資源管理調(diào)度框架YARN 和分布式協(xié)調(diào)服務組件Zookeeper,并開發(fā)一個YARN 客戶端應用。第6 章分布式數(shù)據(jù)HBase,論述了HBase 的使用場景、架構(gòu)和存儲原理以及安裝,并實踐HBase Shell 操作。第7 章數(shù)據(jù)倉庫Hive,論述了Hive 的運行原理、數(shù)據(jù)類型與HiveQL 語句使用、分區(qū)和分桶使用、自定義函數(shù)開發(fā)等,并使用HiveQL 語句導入數(shù)據(jù)到HDFS。第8 章基于內(nèi)存的分布式計算框架Spark,論述了Spark 的相關背景知識、生態(tài)系統(tǒng)、架構(gòu)及運行原理和應用場景,以及Spark 的安裝啟動和Spark shell 的基本操作。第9 章Spark 核心編程,對RDD 各種操作進行了較為全面的解釋,還對Spark DAG 機制和Spark Stage 進行了詳細的論述,可以讓讀者更好地理解RDD 的執(zhí)行過程。第10 章Spark 生態(tài)系統(tǒng),論述了Spark SQL、Spark Streaming 及 Structured Streaming、Spark MLlib、Spark GraphX 及其應用場景等。第11 章流式數(shù)據(jù)處理引擎Flink,論述了Flink 的基本組件和架構(gòu)、Flink編程模型、Flink 的部署及應用等。
本書具有以下特點:
1. 強調(diào)目標性,融入思政元素。每章設置學習目標,引導學生學習,啟發(fā)學生思考。本書結(jié)合課程教學內(nèi)容融入思政元素,在章末尾設置思政小講堂,以學生為中心,將課程思政真正融入課堂教學中。
2. 強化實踐性。本書基于新工科課程體系建設過程中大數(shù)據(jù)運維、大數(shù)據(jù)分析處理等技術基礎的理論與實踐,在介紹實用知識體系的同時注重對相關基礎理論的講解,以便學生融會貫通,達到理論與實踐的有機結(jié)合,并強調(diào)實踐性,在每章都提供了比較充足的實踐內(nèi)容。感謝合作企業(yè)的工程師和課程教學團隊的每位成員,是他們的幫助,使本書得以順利完成編寫并不斷完善。書中的實戰(zhàn)內(nèi)容由編者聯(lián)合江蘇知途教育科技有限公司的工程師共同完成。
在本書的編寫過程中,編者參考了國內(nèi)外出版的一些教材、報刊、文獻和網(wǎng)絡資源,吸收了學者們最新的研究成果,在此謹對所參考的資料的版權所有者表示衷心感謝!在編寫過程中,得到了江蘇知途教育科技有限公司李瑞芝經(jīng)理的幫助,他為完善本書付出了很多努力,同時還得到了華納信息科技有限公司的大力支持,在此一并表示感謝!
由于時間倉促、編者水平有限,書中的不足之處在所難免,尚望同行專家及讀者不吝賜教,以便今后進一步完善修改。
羅金炎,工學碩士,閩江學院副教授,主要研究方向為智能優(yōu)化算法、機器學習、人工智能等。主要講授程序設計基礎C語言、Hadoop原理及應用、大數(shù)據(jù)技術與應用、人工神經(jīng)網(wǎng)絡與深度學習等課程,參編教材2部。曾主持多項省自然科學基金項目、;痦椖、橫向項目等,發(fā)表學術論文30多篇。 董正山,應用數(shù)學博士,現(xiàn)任閩江學院數(shù)學與數(shù)據(jù)科學學院講師。主要從事優(yōu)化理論與算法、機器學習、數(shù)據(jù)分析等相關領域的理論與應用研究,已經(jīng)在國內(nèi)外重要學術期刊上發(fā)表論文5篇。個人曾在企業(yè)從事過視頻數(shù)據(jù)智能分析等相關工作3年,擁有數(shù)據(jù)分析、人工智能等工程實踐經(jīng)驗。 雷進宇,博士,現(xiàn)任閩江學院數(shù)學與數(shù)據(jù)科學學院講師。主要從事船舶軌跡數(shù)據(jù)挖掘、時空數(shù)據(jù)可視分析及智能交通信息系統(tǒng)的研究。主要主持或參與國家級、省級科學基金多項。在國內(nèi)外學術刊物發(fā)表了10余篇學術論文,獲得國家專利4項,軟件著作權2項。