Hadoop大數(shù)據(jù)平臺(tái)開(kāi)發(fā)運(yùn)維實(shí)訓(xùn)
定 價(jià):38 元
叢書名:高等院校信息類新專業(yè)規(guī)劃教材華信乾坤培訓(xùn)推薦教材
- 作者:余挺主編
- 出版時(shí)間:2022/1/1
- ISBN:9787563565849
- 出 版 社:北京郵電大學(xué)出版社
- 中圖法分類:TP274
- 頁(yè)碼:205頁(yè)
- 紙張:膠版紙
- 版次:1
- 開(kāi)本:16開(kāi)
本書系統(tǒng)梳理總結(jié)ApacheHadoop大數(shù)據(jù)相關(guān)技術(shù),介紹大數(shù)據(jù)存儲(chǔ)、并行計(jì)算、數(shù)據(jù)處理等內(nèi)容,幫助讀者形成對(duì)大數(shù)據(jù)知識(shí)體系及其應(yīng)用領(lǐng)域的輪廓性認(rèn)識(shí),為讀者在大數(shù)據(jù)領(lǐng)域進(jìn)行更深入的學(xué)習(xí)和研究奠定基礎(chǔ)、指明方向。
2012年后,大數(shù)據(jù)(BagData)一詞越來(lái)越多地被提及,人們用它來(lái)描述和定義信息爆炸時(shí)代產(chǎn)生的海量數(shù)據(jù),并命名與之相關(guān)的技術(shù)發(fā)展與創(chuàng)新。
隨著云時(shí)代的來(lái)臨,大數(shù)據(jù)吸引了越來(lái)越多的關(guān)注,數(shù)據(jù)正在迅速膨脹并變大,它決定著企業(yè)的未來(lái)發(fā)展,雖然很多企業(yè)可能并沒(méi)有意識(shí)到數(shù)據(jù)爆炸性增長(zhǎng)帶來(lái)問(wèn)題的隱患,但是隨著時(shí)間的推移,人們將越來(lái)越多地意識(shí)到數(shù)據(jù)對(duì)企業(yè)的重要性,大數(shù)據(jù)通常用來(lái)形容一個(gè)公司創(chuàng)造的大量非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),這些數(shù)據(jù)在下載到關(guān)系數(shù)據(jù)庫(kù)時(shí)用于分析會(huì)花費(fèi)過(guò)多的時(shí)間和金錢,大數(shù)據(jù)分析常和云計(jì)算聯(lián)系到一起,因?yàn)閷?shí)時(shí)的大型數(shù)據(jù)分析需要像MapReduce一樣的計(jì)算框架來(lái)向數(shù)十、數(shù)百甚至數(shù)千臺(tái)計(jì)算機(jī)分配工作。
本書主要向讀者介紹一種大規(guī)模數(shù)據(jù)處理的開(kāi)源框架——Hadoop生態(tài)系統(tǒng)。在深入探討Hadoop的技術(shù)細(xì)節(jié)和應(yīng)用之前,有必要花時(shí)間來(lái)了解Hadoop及其取得巨的歷史背景,Hadoop并不是憑空想象出來(lái)的,它的出現(xiàn)源于人們創(chuàng)建和使用的數(shù)據(jù)量的爆炸性增長(zhǎng)。在此背景下,不僅龐大的跨國(guó)公司面臨著海量數(shù)據(jù)處理的困難,小型創(chuàng)業(yè)公司同樣如此。與此同時(shí),一些變革改變了軟件和系統(tǒng)的部署方式,除了傳統(tǒng)的基礎(chǔ)設(shè)施,人們開(kāi)始使用甚至偏好于分布式資源處理框架。
本書揭開(kāi)了Apache Hadoop的神秘面紗,著重講解了如何應(yīng)用Hadoop和相關(guān)技術(shù)搭建工作系統(tǒng)并完成任務(wù)。本書共分為9章:第pan>章講解Hadoop的生態(tài)系統(tǒng),以及在行業(yè)中的應(yīng)用場(chǎng)景;第2章講解Hadoop分布式文件系統(tǒng)括NameNode和DataNode節(jié)點(diǎn)、機(jī)架感知策略、HDFS Shell 命令等;第3 章講解MapReduce 并行計(jì)算框架,讓讀者了解MapReduce的工作原理:第4章講解HBase分布式數(shù)據(jù)庫(kù),講述了HBase 如何實(shí)現(xiàn)數(shù)據(jù)存儲(chǔ)、HBase 的節(jié)點(diǎn)類型、HBase API開(kāi)發(fā):第5章講解Hive 數(shù)據(jù)倉(cāng)庫(kù),介紹了Hive 的架構(gòu)、HQL語(yǔ)法結(jié)構(gòu)、Hive 數(shù)據(jù)查詢案例:第6章講解Kafka 消息系統(tǒng),介紹了Kafka消息系統(tǒng)的工作原理、Kafka消息細(xì)節(jié)處理等;第7章講解Flume 日志處理系統(tǒng),介紹了Flume的日志處理技術(shù),F(xiàn)lume 如行流計(jì)算技術(shù)處理:第8章講郁Zookeper分布式協(xié)調(diào)系統(tǒng),幫助讀者理解如何實(shí)現(xiàn)Hadoop組件之問(wèn)的協(xié)調(diào)控制:第9意講解 Sagoop數(shù)據(jù)遷移工具,涵蓋了有效使用Sqoop處理實(shí)際場(chǎng)景中的數(shù)據(jù)遷移工作。
通過(guò)閱讀本書,讀者將迅速掌握編程概念,打下堅(jiān)實(shí)的基礎(chǔ),并養(yǎng)成良好的習(xí)慣。此后,讀者就可以開(kāi)始了解其他大數(shù)臺(tái)技術(shù),如Spark內(nèi)存計(jì)算框架、Flink流扯一體化處臺(tái),并能夠更輕松地掌握大數(shù)據(jù)技術(shù)。
第1章 .Hadoop大數(shù)臺(tái)概述
1.1 Hadoop大數(shù)臺(tái)起源
1.1.1 Hadoop發(fā)展歷程
1.1.2 Hadoop核心組件
1.1.3 Hadoop與云計(jì)算的關(guān)系
1.2 Hadoop集群搭建和簡(jiǎn)單應(yīng)用
1.2.1 集群服務(wù)器規(guī)劃
1.2.2 Hadoop軟件安裝
1.2.3 Hadoop命令行的基本使用
本章小結(jié)
第2章 Hadoop分布式文件系統(tǒng)
2.1 HDFS概述
2.1.1 HDFS的概念和特性
2.1.2 HDFS的局限性
2.1.3 HDFS保證可靠性的措施
2.1.4 單點(diǎn)故障(單點(diǎn)失效)問(wèn)題
2.2 HDFS Shell命令
2.2.1 常見(jiàn)Shell命令
2.2.2 其他HDFS Shell命令
2.3 對(duì)HDFS的深入理解
2.3.1 HDFS的優(yōu)點(diǎn)和缺點(diǎn)
2.3.2 HDFS的能
2.4 HDFS讀寫過(guò)程
2.4.1 HDFS寫入數(shù)據(jù)過(guò)程
2.4.2 HDFS讀取數(shù)據(jù)過(guò)程
2.5 分布式集群中HDFS的各種角色
2.5.1 NameNode的可靠性
2.5.2 DataNode的可靠性
2.5.3 元數(shù)據(jù)的CheckPoint
本章小結(jié)
第3章 MapReduce并行計(jì)算框架
3.1 MapReduce概述
3.1.1 為什么需要MapReduce
3.1.2 MapReduce程序運(yùn)行演示
3.1.3 WordCount.java源碼分析
3.i.4編寫自己的WordCount程序
3.2 MapReduce的核心運(yùn)行機(jī)制
3.3 MapReduce的多Job串聯(lián)和全局計(jì)數(shù)器
3.3.1 MapReduce的多Job串聯(lián)
3.3.2 全局計(jì)數(shù)器
3.3.3 計(jì)數(shù)器該如何使用
3.3.4 MapReduce框架Partitioner分區(qū)
3.3.5 MapReduce框架Combiner分區(qū)
3.4 YARN的資源調(diào)度
本章小結(jié)
第4章 HBase分布式數(shù)據(jù)庫(kù)
4.1 HBase數(shù)據(jù)庫(kù)概述
4.1.1 HBase數(shù)據(jù)庫(kù)的使用場(chǎng)景
4.1.2 HBase數(shù)據(jù)庫(kù)的安裝
4.2 HBase數(shù)據(jù)庫(kù)物理架構(gòu)
4.2.1 HBase集群節(jié)點(diǎn)類型
4.2.2 HBase數(shù)據(jù)存儲(chǔ)
4.3 HBase數(shù)據(jù)庫(kù)r/> 4.3.1 HBase命令行的啟動(dòng)
4.3.2 HBase表的r/> 4.3.3 HBase表中數(shù)據(jù)的r/> 4.4 HBase數(shù)據(jù)庫(kù)的APIr/> 本章小結(jié)
第5章 Hive數(shù)據(jù)倉(cāng)庫(kù)
5.1 Hive簡(jiǎn)介
5.1.1 什么是Hire
5.1.2 Hive的數(shù)據(jù)組織
5.1.3 Hive的表類型
5.2 Hive的安裝與使用
5.2.1 Hive的安裝配置
5.2.2 Hive的基本使用
5.2.3 Hive的連接方式
5.3 Hive數(shù)據(jù)結(jié)構(gòu)
5.3.1 Hive數(shù)據(jù)類型
5.3.2 Hive數(shù)據(jù)存儲(chǔ)格式
5.3.3 數(shù)據(jù)格式
5.4 Hive數(shù)據(jù)r/> 5.4.1 管理庫(kù)
5.4.2 表r/> 5.5 Hive應(yīng)用案例
5.5.1 統(tǒng)計(jì)單月訪問(wèn)次數(shù)訪問(wèn)次數(shù)
5.5.2 學(xué)生課程成績(jī)統(tǒng)計(jì)
本章小結(jié)
第6章 Kafka消息系統(tǒng)
6.1 Kafka消息系能
6.1.1 Kafka概述
6.1.2 Kafka組件架構(gòu)
6.1.3 Kafka軟件安裝
6.1.4 Kafka服務(wù)的啟動(dòng)
6.2 Kafka組件術(shù)語(yǔ)
6.2.1 主題與日志
6.2.2 Kafka H志處理
6.2.3 消息副本
6.2.4 數(shù)據(jù)處理場(chǎng)景
6.2.5 生產(chǎn)者
6.2.6 消費(fèi)者
本章小結(jié)
第7章 Flume日志處理系統(tǒng)
7.1 F、lume的簡(jiǎn)介
7.1.1 Flume概述
7.1.2 Flume NG的介紹
7.1.3 Flume的部署類型
7.2 F、lume的安裝與配置
7.2.1 Flume的下載與安裝
7.2.2 Flume Sources描述
7.3 Flume代理流配置
7.3.1 單配置
7.3.2 單代理多流配置
7.3.3 配置多代理流程
7.3.4 多路復(fù)用流
本章小結(jié)
第8章 ZooKeeper分布式協(xié)調(diào)系統(tǒng)
8.1 分布式協(xié)調(diào)技術(shù)概述
8.2 ZooKeeper概述
8.3 ZooKeeper監(jiān)聽(tīng)機(jī)制
8.3.1 Watch觸發(fā)器
8.3.2 監(jiān)聽(tīng)原理
8.3.3 ZooKeeper應(yīng)用舉例
8.4 ZooKeeper的安裝與集群配置
8.4.1 ZooKeeper的安裝
8.4.2 使用ZooKeeper命令的簡(jiǎn)單操作步驟
本章小結(jié)
第9章 Sqoop數(shù)據(jù)遷移工具
9.1 Sq0能概述
9.1.1 Sqoop軟件介紹
9.1.2 Sqoop軟件安裝
9.2 Sqoop命令r/> 9.2.1 Sqoop的基本命令
9.2.2 Sqoop的數(shù)據(jù)導(dǎo)入
9.2.3 將MysQL數(shù)據(jù)庫(kù)中的表數(shù)據(jù)導(dǎo)入Hive
9.2.4 將MysQL數(shù)據(jù)庫(kù)中的表數(shù)據(jù)導(dǎo)入HBar/> 本章小結(jié)
參考文獻(xiàn)
第一章
Hadoop大數(shù)臺(tái)概述
從大數(shù)據(jù)自身的技術(shù)體系來(lái)說(shuō),大數(shù)據(jù)所有的技術(shù)都緊緊圍繞數(shù)據(jù)價(jià)值化來(lái)展開(kāi),企業(yè)對(duì)大數(shù)據(jù)的利用當(dāng)前也逐漸從傳統(tǒng)的數(shù)據(jù)采集和分析向數(shù)據(jù)生產(chǎn)轉(zhuǎn)變,相信在工業(yè)互聯(lián)網(wǎng)時(shí)代這一趨勢(shì)會(huì)越發(fā)明是。
對(duì)于企業(yè)來(lái)說(shuō),借助于大數(shù)據(jù)來(lái)降低運(yùn)營(yíng)成本是一個(gè)重要的訴求,而通過(guò)大數(shù)據(jù)技術(shù)來(lái)降低運(yùn)營(yíng)成本的出發(fā)點(diǎn)多,不同行業(yè)企業(yè)要結(jié)合自身的實(shí)際情況行方案規(guī)劃。當(dāng)前很多企業(yè)利用大數(shù)據(jù)來(lái)構(gòu)建自己的價(jià)值化考核體系,這是降耗提效的好方式。
大數(shù)據(jù)時(shí)代,數(shù)據(jù)的應(yīng)用已經(jīng)滲透到各行各業(yè),但是傳統(tǒng)的數(shù)據(jù)挖據(jù)和分析已經(jīng)不能滿足行業(yè)發(fā)展的需求,大數(shù)據(jù)技術(shù)為企業(yè)業(yè)務(wù)分析和行業(yè)發(fā)展帶來(lái)了新的思維角度,將會(huì)充分激發(fā)數(shù)據(jù)對(duì)社會(huì)發(fā)展的影響和推動(dòng)。如何有效利用大數(shù)臺(tái)?接下來(lái)我們就一起來(lái)了解Apache Hadoop大數(shù)據(jù)生態(tài)系統(tǒng),
1.1 Hadoop大數(shù)臺(tái)起源
Hadoop是Hadoop項(xiàng)目創(chuàng)建者Doug Cutting兒子的一只玩具的名字。他的兒子一直稱呼一只黃色的大象玩具為Hadoop,這剛好滿足Cutting的命名需求——簡(jiǎn)短、容易拼寫和發(fā)
音、毫無(wú)意義、不會(huì)在別處被使用,于是Hadoop就誕生了。Hadoop的發(fā)行版本有很多,有華為發(fā)行版、星環(huán)發(fā)行版、Intel發(fā)行版、Cloudera發(fā)行版(CDH).MapR版本以及Horton Works版本等。所有發(fā)行版本都是基于Apache Hadoop衍生出來(lái)的,產(chǎn)生這些版本的原因可歸結(jié)為
Apache Hadoop的開(kāi)源協(xié)議;任何人都可以對(duì)行修改,并作為開(kāi)源或商業(yè)產(chǎn)品發(fā)布和銷售。
1.1.1 Hadoop發(fā)展歷程
1.Hadoop大數(shù)臺(tái)的起源
①Hadoop早起源于Nutch項(xiàng)目,Nutch 的設(shè)計(jì)目標(biāo)是構(gòu)建一個(gè)大型的搜索引聚括網(wǎng)頁(yè)抓取,索引、查能,但隨著抓取網(wǎng)更數(shù)量的增加,其遇到了嚴(yán)重的可擴(kuò)展性問(wèn)題——如何解決數(shù)十億網(wǎng)頁(yè)的存儲(chǔ)和索引問(wèn)題。
②從2003年開(kāi)始,Google陸續(xù)發(fā)表的3篇論文為該問(wèn)題提供了可行的解決方案。
·分布式文件系統(tǒng)(DFS):可用于處理海量網(wǎng)頁(yè)的存儲(chǔ)問(wèn)題。
·分布式計(jì)算框架MapReduce:可用于處理海量網(wǎng)頁(yè)的索引計(jì)算問(wèn)題。
·Big Table分布式數(shù)據(jù)庫(kù):OLTP(聯(lián)機(jī)事務(wù)處理,On-Line Transaction Processing)用于執(zhí)行增、刪、改操作,OLAP(聯(lián)機(jī)分析處理,On-Line Analysis Processing)用于執(zhí)行查詢操作。
(③Nutch的開(kāi)發(fā)人員完成了相應(yīng)的開(kāi)源實(shí)現(xiàn)HDFS和MapReduce,并將其從Nutch中剝離出來(lái),成為獨(dú)立項(xiàng)目Hadoop。直到2008年pan>月,Hadoop成為Apache項(xiàng)目,迎來(lái)了快速發(fā)展期。
2.Hadoop官網(wǎng)
我們可以通過(guò) Hadoop官網(wǎng)http://hadoop.apache.org/來(lái)學(xué)習(xí)Hadoop 的核心技術(shù)。
Hadoop大數(shù)臺(tái)的處理主要就是存儲(chǔ)和計(jì)算,我們安裝Hadoop集群,目的是實(shí)現(xiàn)兩個(gè)核
YARN和一個(gè)分布式文件系統(tǒng)HDFS.其實(shí)MapReduce就是運(yùn)行在
YARN之上的應(yīng)用。
1.1.2Hadoop核心組件
Hadoop是Apache旗下的一套開(kāi)源軟臺(tái),Hadoop主要提能是:利用服務(wù)器集群,根據(jù)用戶自定義的邏輯對(duì)海量數(shù)行分布式處理。
1.Hadoop的概念
①狹義上:屬于Apache基全會(huì)的一個(gè)項(xiàng)目Apache Hadoop.
②廣義上:以Hadoop為核心的整個(gè)大數(shù)據(jù)處理體系括計(jì)算和存儲(chǔ)能力。
2.Hadoop的核心組件
①Hadoop Common:支持其他Hadoop模塊的常用工具。
②Hadoop分布式文件系統(tǒng)(HDFS):一種分布式文件系統(tǒng),可提供對(duì)應(yīng)用程序數(shù)據(jù)的高吞吐量訪問(wèn)。
③Hadoop YARN:作業(yè)調(diào)度和集群資源管理的框架。
④Hadoop MapReduce:一種用于井行處理大型數(shù)據(jù)集的基于YARN的系統(tǒng)。
……