本書按照大數(shù)據(jù)分析流程,以電商產(chǎn)品數(shù)據(jù)為例,由淺入深地講解大數(shù)據(jù)分析的核心開發(fā)技術(shù),以及大數(shù)據(jù)分析工具及其組件的作用和使用方法。本書內(nèi)容系統(tǒng)、全面,可幫助讀者快速掌握大數(shù)據(jù)分析技術(shù)。本書介紹了大數(shù)據(jù)分析的概念、應(yīng)用場景、分析指標、分析工具、分析組件、分布式存儲、分布式處理、數(shù)據(jù)離線分析、數(shù)據(jù)實時分析、數(shù)據(jù)挖掘,以及數(shù)據(jù)遷移等知識,并通過實際的操作案例,詳細、直觀地介紹了大數(shù)據(jù)分析的實現(xiàn)過程。
本書可作為高等職業(yè)院校大數(shù)據(jù)技術(shù)等專業(yè)的教材,也可作為大數(shù)據(jù)分析技術(shù)人員的參考書。
項目1
初識電商產(chǎn)品數(shù)據(jù)的處理與
分析 1
項目導(dǎo)言 1
項目導(dǎo)圖 1
知識目標 1
技能目標 2
素養(yǎng)目標 2
任務(wù)1-1 電商產(chǎn)品數(shù)據(jù)背景及數(shù)據(jù)
分析概述 2
任務(wù)描述 2
素質(zhì)拓展 2
任務(wù)技能 2
技能點1 電商產(chǎn)品數(shù)據(jù)背景 2
技能點2 大數(shù)據(jù)分析概念 4
技能點3 大數(shù)據(jù)分析應(yīng)用場景 5
技能點4 大數(shù)據(jù)分析指標 9
任務(wù)1-2 電商產(chǎn)品數(shù)據(jù)處理與分析
項目準備 12
任務(wù)描述 12
素質(zhì)拓展 12
任務(wù)技能 12
技能點1 大數(shù)據(jù)分析工具簡介 12
技能點2 大數(shù)據(jù)分析組件 15
技能點3 大數(shù)據(jù)分析流程 19
技能點4 大數(shù)據(jù)分析企業(yè)級應(yīng)用 20
任務(wù)實施 22
項目小結(jié) 26
課后習(xí)題 26
自我評價 27
項目2
電商產(chǎn)品數(shù)據(jù)分布式存儲 28
項目導(dǎo)言 28
項目導(dǎo)圖 28
知識目標 28
技能目標 29
素養(yǎng)目標 29
任務(wù)2-1 使用HDFS Shell管理
電商產(chǎn)品數(shù)據(jù) 29
任務(wù)描述 29
素質(zhì)拓展 29
任務(wù)技能 29
技能點1 什么是HDFS 29
技能點2 HDFS存儲架構(gòu) 30
技能點3 HDFS文件存取機制 32
技能點4 HDFS Shell基礎(chǔ)命令 36
技能點5 HDFS Shell管理命令 38
任務(wù)實施 40
任務(wù)2-2 使用HDFS庫管理電商
產(chǎn)品數(shù)據(jù) 44
任務(wù)描述 44
素質(zhì)拓展 44
任務(wù)技能 44
技能點1 HDFS庫簡介 44
技能點2 HDFS庫方法 44
任務(wù)實施 48
項目小結(jié) 51
課后習(xí)題 51
自我評價 52
項目3
電商產(chǎn)品數(shù)據(jù)分布式處理 53
項目導(dǎo)言 53
項目導(dǎo)圖 53
知識目標 53
技能目標 53
素養(yǎng)目標 54
任務(wù)3-1 使用正則表達式匹配電商
產(chǎn)品數(shù)據(jù) 54
任務(wù)描述 54
素質(zhì)拓展 54
任務(wù)技能 54
技能點1 MapReduce簡介 54
技能點2 YARN簡介 56
技能點3 正則表達式 59
任務(wù)實施 61
任務(wù)3-2 使用Hadoop Streaming
處理電商產(chǎn)品數(shù)據(jù) 64
任務(wù)描述 64
素質(zhì)拓展 64
任務(wù)技能 64
技能點1 Hadoop Streaming簡介 64
技能點2 Hadoop Streaming的使用
方法 64
任務(wù)實施 65
項目小結(jié) 71
課后習(xí)題 71
自我評價 72
項目4
電商產(chǎn)品數(shù)據(jù)離線分析 73
項目導(dǎo)言 73
項目導(dǎo)圖 73
知識目標 73
技能目標 74
素養(yǎng)目標 74
任務(wù)4-1 使用Hive創(chuàng)建電商產(chǎn)品
數(shù)據(jù)庫 74
任務(wù)描述 74
素質(zhì)拓展 74
任務(wù)技能 74
技能點1 Hive數(shù)據(jù)庫操作 74
技能點2 Hive表操作 76
技能點3 Hive數(shù)據(jù)操作 78
任務(wù)實施 80
任務(wù)4-2 使用Hive對電商產(chǎn)品數(shù)據(jù)
進行統(tǒng)計 84
任務(wù)描述 84
素質(zhì)拓展 84
任務(wù)技能 84
技能點1 算術(shù)運算 84
技能點2 數(shù)據(jù)查詢 85
任務(wù)實施 88
任務(wù)4-3 使用Spark創(chuàng)建基于電商
產(chǎn)品數(shù)據(jù)的分布式數(shù)據(jù)
容器 95
任務(wù)描述 95
素質(zhì)拓展 95
任務(wù)技能 95
技能點1 Spark SQL簡介 95
技能點2 DataFrame簡介 97
技能點3 DataFrame創(chuàng)建 98
任務(wù)實施 102
任務(wù)4-4 使用Spark SQL完成電商
產(chǎn)品數(shù)據(jù)分析 103
任務(wù)描述 103
素質(zhì)拓展 103
任務(wù)技能 104
技能點1 數(shù)據(jù)查看 104
技能點2 數(shù)據(jù)過濾 105
技能點3 數(shù)據(jù)處理 105
技能點4 數(shù)據(jù)存儲 107
任務(wù)實施 108
項目小結(jié) 111
課后習(xí)題 111
自我評價 112
項目5
電商產(chǎn)品數(shù)據(jù)實時分析 113
項目導(dǎo)言 113
項目導(dǎo)圖 113
知識目標 113
技能目標 113
素養(yǎng)目標 114
任務(wù)5-1 創(chuàng)建數(shù)據(jù)流 114
任務(wù)描述 114
素質(zhì)拓展 114
任務(wù)技能 114
技能點1 流式計算簡介 114
技能點2 Spark Streaming簡介 116
技能點3 DStream簡介 117
技能點4 DStream的創(chuàng)建 118
任務(wù)實施 120
任務(wù)5-2 使用Spark Streaming
對電商產(chǎn)品數(shù)據(jù)進行實時
數(shù)據(jù)分析 122
任務(wù)描述 122
素質(zhì)拓展 122
任務(wù)技能 122
技能點1 DStream轉(zhuǎn)換操作 122
技能點2 DStream窗口操作 124
技能點3 DStream輸出操作 125
技能點4 Spark Streaming啟動與
停止 126
任務(wù)實施 127
項目小結(jié) 134
課后習(xí)題 134
自我評價 135
項目6
電商產(chǎn)品數(shù)據(jù)挖掘 136
項目導(dǎo)言 136
項目導(dǎo)圖 136
知識目標 136
技能目標 137
素養(yǎng)目標 137
任務(wù)6-1 處理電商產(chǎn)品數(shù)據(jù) 137
任務(wù)描述 137
素質(zhì)拓展 137
任務(wù)技能 137
技能點1 Spark MLlib概述 137
技能點2 Spark MLlib數(shù)據(jù)類型 138
技能點3 特征提取與數(shù)據(jù)處理 140
任務(wù)實施 144
任務(wù)6-2 使用Spark MLlib對電商
產(chǎn)品定價 151
任務(wù)描述 151
素質(zhì)拓展 152
任務(wù)技能 152
技能點1 分類算法 152
技能點2 回歸算法 154
技能點3 推薦算法 156
技能點4 算法評估 157
任務(wù)實施 159
項目小結(jié) 162
課后習(xí)題 162
自我評價 163
項目7
電商產(chǎn)品數(shù)據(jù)遷移 164
項目導(dǎo)言 164
項目導(dǎo)圖 164
知識目標 164
技能目標 164
素養(yǎng)目標 165
任務(wù)7-1 根據(jù)電商產(chǎn)品數(shù)據(jù)統(tǒng)計結(jié)果
創(chuàng)建數(shù)據(jù)表并查看 165
任務(wù)描述 165
素質(zhì)拓展 165
任務(wù)技能 165
技能點1 Sqoop架構(gòu) 165
技能點2 Sqoop連接器 167
技能點3 Sqoop配置數(shù)據(jù)庫密碼
方式 167
技能點4 列出所有數(shù)據(jù)庫 168
技能點5 列出數(shù)據(jù)庫中的所有表 169
任務(wù)實施 169
任務(wù)7-2 使用Sqoop將Hive中
電商產(chǎn)品數(shù)據(jù)統(tǒng)計結(jié)果
導(dǎo)出 172
任務(wù)描述 172
素質(zhì)拓展 172
任務(wù)技能 173
技能點1 Sqoop數(shù)據(jù)導(dǎo)入與
導(dǎo)出 173
技能點2 其他常用命令 176
任務(wù)實施 178
項目小結(jié) 183
課后習(xí)題 183
自我評價 184