Hadoop數(shù)據(jù)倉庫實(shí)戰(zhàn)
定 價(jià):52 元
- 作者:肖睿 蘭偉 廖春瓊
- 出版時(shí)間:2019/12/1
- ISBN:9787115526090
- 出 版 社:人民郵電出版社
- 中圖法分類:TP274
- 頁碼:242
- 紙張:
- 版次:01
- 開本:16開
本書以Hive為開發(fā)平臺(tái),主要介紹了如何使用HiveQL來查詢和分析存儲(chǔ)在Hadoop分布式文件系統(tǒng)上的大數(shù)據(jù)集合,具體內(nèi)容包括Hive入門、Hive數(shù)據(jù)庫及表操作、Hive元數(shù)據(jù)、Hive高級操作、Hive函數(shù)與Streaming、Hive視圖與索引、Hive調(diào)優(yōu)、Hive與HBase集成、數(shù)據(jù)遷移框架Sqoop等。本書介紹的每個(gè)任務(wù)都運(yùn)用了大量案例,緊密結(jié)合實(shí)際應(yīng)用,融入了含金量十足的開發(fā)經(jīng)驗(yàn)。在此基礎(chǔ)上,本書通過豐富的練習(xí)和操作實(shí)踐,幫助讀者鞏固所學(xué)的內(nèi)容。本書配以多元的學(xué)習(xí)資源和支持服務(wù),包括視頻、案例素材、學(xué)習(xí)社區(qū)等,為讀者提供全方位的學(xué)習(xí)體驗(yàn)。
本書適合作為計(jì)算機(jī)、大數(shù)據(jù)等相關(guān)專業(yè)的教材,也適合具有一定Linux或Java開發(fā)基礎(chǔ)且想從事大數(shù)據(jù)開發(fā)的人員閱讀學(xué)習(xí),還可以作為大數(shù)據(jù)分析與運(yùn)維人員的參考用書。
1. 貫穿項(xiàng)目與實(shí)戰(zhàn)項(xiàng)目相結(jié)合
(1)貫穿項(xiàng)目:雇員信息、零售數(shù)據(jù)分析貫穿每章,及時(shí)鞏固Hive各知識(shí)點(diǎn)。
(2)實(shí)戰(zhàn)項(xiàng)目:電商消費(fèi)數(shù)據(jù)分析綜合實(shí)訓(xùn),提升Hive企業(yè)級應(yīng)用開發(fā)能力。
2. 教學(xué)資源豐富多樣
(1)本書配套素材及示例代碼。
(2)每章課后作業(yè)及答案。
(3)重難點(diǎn)內(nèi)容講解視頻(掃碼直接觀看)。
3. 學(xué)習(xí)效果隨時(shí)可測
(1)每章提供“本章目標(biāo)”及“重難點(diǎn)”,助力讀者確定學(xué)習(xí)要點(diǎn)。
(2)課后作業(yè)輔助讀者鞏固階段性學(xué)習(xí)內(nèi)容。
(3)課工場題庫助力在線測試。
肖睿,課工場創(chuàng)始人,北京大學(xué)教育學(xué)博士,北京大學(xué)軟件學(xué)院特約講師,北京大學(xué)學(xué)習(xí)科學(xué)實(shí)驗(yàn)室特約顧問。作為北大青鳥 Aptech 的聯(lián)合創(chuàng)始人,歷任學(xué)術(shù)總監(jiān)、研究院院長、公司副總裁等核心崗位,擁有20多年的IT職業(yè)教育產(chǎn)品管理和企業(yè)管理經(jīng)驗(yàn)。于2015年創(chuàng)辦課工場,兼任總經(jīng)理,旨在為大學(xué)生提供更可靠的 IT 就業(yè)教育及服務(wù)。
北京課工場教育科技有限公司是專注互聯(lián)網(wǎng)教育的生態(tài)平臺(tái),匯聚了中國和北美數(shù)百位來自知名互聯(lián)網(wǎng)企業(yè)的行業(yè)大咖,依托Transform只能教育生態(tài)平臺(tái),打造智慧校園、企業(yè)大學(xué)、行業(yè)培訓(xùn)的教育場景,提供一站式教育解決方案。
第 1章 Hive入門 1
任務(wù)1 了解Hive基礎(chǔ) 2
1.1.1 認(rèn)識(shí)Hive 2
1.1.2 Hive架構(gòu)設(shè)計(jì) 5
1.1.3 Hive工作流程 6
1.1.4 Hive適用場景 7
任務(wù)2 掌握Hive數(shù)據(jù)存儲(chǔ)模型 8
1.2.1 Hive存儲(chǔ)格式 8
1.2.2 Hive數(shù)據(jù)單元 10
1.2.3 Hive存儲(chǔ)模型 10
任務(wù)3 安裝配置Hive環(huán)境 11
1.3.1 Hive的發(fā)展歷程 12
1.3.2 搭建Hive CDH環(huán)境 13
1.3.3 Hive初體驗(yàn) 15
1.3.4 Hive開發(fā)環(huán)境 18
1.3.5 技能實(shí)訓(xùn) 21
本章小結(jié) 21
本章作業(yè) 21
第 2章 Hive數(shù)據(jù)庫及表操作 23
任務(wù)1 熟悉Hive數(shù)據(jù)類型 24
2.1.1 基本數(shù)據(jù)類型 24
2.1.2 復(fù)雜數(shù)據(jù)類型 26
任務(wù)2 使用Hive管理雇員信息 28
2.2.1 Hive DDL操作 29
2.2.2 Hive DML操作 33
2.2.3 Hive Shell 38
2.2.4 技能實(shí)訓(xùn) 40
任務(wù)3 使用Hive Java API操作雇員表 41
2.3.1 開發(fā)環(huán)境搭建 41
2.3.2 JDBC操作Hive數(shù)據(jù)庫 42
2.3.3 技能實(shí)訓(xùn) 47
本章小結(jié) 47
本章作業(yè) 48
第3章 Hive元數(shù)據(jù) 49
任務(wù)1 訪問雇員數(shù)據(jù)的元數(shù)據(jù)信息 50
3.1.1 Hive元數(shù)據(jù)的概念及存儲(chǔ)方式 50
3.1.2 雇員數(shù)據(jù)元數(shù)據(jù)信息查詢 53
3.1.3 技能實(shí)訓(xùn) 60
任務(wù)2 使用Hive Java API讀取雇員表元數(shù)據(jù) 60
3.2.1 hive-metastore組件 60
3.2.2 使用HiveMetaStoreClient訪問元數(shù)據(jù) 62
3.2.3 技能實(shí)訓(xùn) 68
任務(wù)3 使用HCatalog管理雇員數(shù)據(jù)的元數(shù)據(jù) 69
3.3.1 HCatalog介紹 69
3.3.2 HCatalog應(yīng)用 70
本章小結(jié) 75
本章作業(yè) 75
第4章 Hive高級操作 77
任務(wù)1 關(guān)聯(lián)查詢零售商店訂單明細(xì) 78
4.1.1 SELECT語句 78
4.1.2 關(guān)聯(lián)查詢 83
4.1.3 聯(lián)合查詢 87
4.1.4 技能實(shí)訓(xùn) 87
任務(wù)2 使用分組排序?qū)崿F(xiàn)商品銷售排行 88
4.2.1 排序 88
4.2.2 分組聚合 91
4.2.3 技能實(shí)訓(xùn) 94
任務(wù)3 使用窗口函數(shù)實(shí)現(xiàn)零售數(shù)據(jù)統(tǒng)計(jì) 94
4.3.1 窗口函數(shù) 94
4.3.2 窗口的定義 99
4.3.3 技能實(shí)訓(xùn) 102
本章小結(jié) 102
本章作業(yè) 102
第5章 Hive函數(shù)與Streaming 103
任務(wù)1 應(yīng)用內(nèi)置函數(shù) 104
5.1.1 函數(shù)概述 104
5.1.2 內(nèi)置函數(shù)詳解 105
5.1.3 技能實(shí)訓(xùn) 112
任務(wù)2 使用Java編寫Hive自定義函數(shù) 112
5.2.1 自定義函數(shù)概述 113
5.2.2 UDF 114
5.2.3 UDAF 117
5.2.4 UDTF 120
5.2.5 技能實(shí)訓(xùn) 121
任務(wù)3 使用Streaming實(shí)現(xiàn)數(shù)據(jù)處理 121
5.3.1 Streaming概念 122
5.3.2 Streaming應(yīng)用 122
5.3.3 技能實(shí)訓(xùn) 125
本章小結(jié) 125
本章作業(yè) 125
第6章 Hive視圖與索引 127
任務(wù)1 創(chuàng)建并管理零售商店的顧客表和訂單表視圖 128
6.1.1 視圖的基本概念及使用場景 128
6.1.2 視圖的基本操作 130
6.1.3 Materialized Views和Lateral View 135
6.1.4 技能實(shí)訓(xùn) 138
任務(wù)2 建立零售商店顧客表索引 139
6.2.1 Hive索引的基本概念及使用場景 139
6.2.2 為零售商店顧客表建立索引 141
6.2.3 與索引相關(guān)的元數(shù)據(jù)表 144
6.2.4 技能實(shí)訓(xùn) 145
本章小結(jié) 146
本章作業(yè) 146
第7章 Hive調(diào)優(yōu) 147
任務(wù)1 熟悉Hive性能調(diào)優(yōu)策略 148
7.1.1 Hive性能調(diào)優(yōu)使用工具 148
7.1.2 優(yōu)化Map Task和Reduce Task個(gè)數(shù) 150
7.1.3 Hive Job優(yōu)化 151
7.1.4 Hive Query優(yōu)化 153
7.1.5 設(shè)置壓縮 155
7.1.6 技能實(shí)訓(xùn) 157
任務(wù)2 解決Hive數(shù)據(jù)傾斜問題 157
7.2.1 數(shù)據(jù)傾斜問題 158
7.2.2 數(shù)據(jù)傾斜問題解決方案 158
任務(wù)3 Hive集成Tez 161
7.3.1 Tez簡介 161
7.3.2 Tez安裝配置 162
7.3.3 Hive與Tez集成 164
7.3.4 技能實(shí)訓(xùn) 166
本章小結(jié) 166
本章作業(yè) 166
第8章 Hive與HBase集成 169
任務(wù)1 理解Hive與HBase集成的場景及原理 170
8.1.1 Hive與HBase集成的應(yīng)用場景 170
8.1.2 Hive與HBase集成原理 171
任務(wù)2 實(shí)現(xiàn)Hive與HBase集成 174
8.2.1 Hive與HBase集成配置 174
8.2.2 Hive與HBase集成功能測試 175
8.2.3 將零售商店顧客購買統(tǒng)計(jì)信息存入HBase表 182
8.2.4 技能實(shí)訓(xùn) 183
任務(wù)3 使用Phoenix操作HBase數(shù)據(jù)庫 184
8.3.1 Phoenix簡介 184
8.3.2 搭建Phoenix CDH環(huán)境 186
8.3.3 技能實(shí)訓(xùn) 189
本章小結(jié) 190
本章作業(yè) 190
第9章 數(shù)據(jù)遷移框架Sqoop 191
任務(wù)1 使用Sqoop完成Hadoop與MySQL間的數(shù)據(jù)遷移 192
9.1.1 Sqoop簡介 192
9.1.2 導(dǎo)入MySQL數(shù)據(jù)到HDFS 196
9.1.3 導(dǎo)入MySQL數(shù)據(jù)到Hive 205
9.1.4 導(dǎo)入MySQL數(shù)據(jù)到HBase 206
9.1.5 導(dǎo)出HDFS數(shù)據(jù)到MySQL 207
9.1.6 技能實(shí)訓(xùn) 211
任務(wù)2 使用Sqoop Job完成Hive與MySQL間的數(shù)據(jù)遷移 211
9.2.1 Sqoop Job 212
9.2.2 技能實(shí)訓(xùn) 213
本章小結(jié) 213
本章作業(yè) 213
第 10章 項(xiàng)目實(shí)訓(xùn):電子商務(wù)消費(fèi)行為分析 215
10.1 項(xiàng)目準(zhǔn)備 216
10.2 難點(diǎn)分析 219
10.3 項(xiàng)目實(shí)現(xiàn)思路 220
本章小結(jié) 242
本章作業(yè) 242