第1章大數(shù)據(jù)概述
1.1大數(shù)據(jù)的產(chǎn)生與發(fā)展
1.2大數(shù)據(jù)的基礎(chǔ)知識(shí)
1.3大數(shù)據(jù)架構(gòu)
1.4本章小結(jié)
1.5課后習(xí)題
第2章Linux系統(tǒng)的安裝與使用
2.1系統(tǒng)安裝
2.1.1安裝 CentOS 7.x
2.1.2安裝步驟
2.2基本命令
2.2.1cd命令
2.2.2打包和解壓命令
2.2.3其他常用命令
2.3權(quán)限與目錄
2.3.1權(quán)限
2.3.2目錄
2.4文件操作
2.4.1文件與目錄管理
2.4.2用戶和用戶組管理
2.5網(wǎng)絡(luò)配置
2.6本章小結(jié)
2.7課后習(xí)題
第3章Python 3語(yǔ)言基礎(chǔ)
3.1Python 3簡(jiǎn)介
3.1.1Python 的發(fā)展歷史
3.1.2Python的應(yīng)用
3.2環(huán)境搭建
3.2.1Python 3環(huán)境的搭建
3.2.2PyCharm
3.3基礎(chǔ)語(yǔ)法
3.3.1語(yǔ)法規(guī)范
3.3.2數(shù)據(jù)類(lèi)型
3.3.3Number數(shù)據(jù)類(lèi)型
3.3.4字符串
3.3.5列表
3.3.6元組
3.3.7字典
3.3.8集合
3.3.9函數(shù)
3.3.10模塊
3.3.11類(lèi)和對(duì)象
3.3.12封裝
3.3.13構(gòu)造函數(shù)
3.3.14繼承
3.3.15異常
3.3.16操作MySQL
3.4本章小結(jié)
3.5課后習(xí)題
3.6實(shí)訓(xùn)
第4章Hadoop開(kāi)發(fā)環(huán)境
4.1Hadoop生態(tài)圈工具
4.2環(huán)境搭建
4.2.1Linux虛擬機(jī)基礎(chǔ)配置
4.2.2Xshell工具
4.2.3安裝JDK
4.2.4安裝Hadoop
4.2.5安裝SSH
4.2.6復(fù)制虛擬機(jī)
4.2.7修改其他虛擬機(jī)
4.2.8設(shè)置免密
4.2.9啟動(dòng)Hadoop集群
4.3常見(jiàn)問(wèn)題匯總
4.4本章小結(jié)
4.5課后習(xí)題
第5章HDFS技術(shù)
5.1HDFS架構(gòu)
5.2HDFS命令
5.2.1version命令
5.2.2dfsadmin命令
5.2.3jar命令
5.2.4fs命令
5.3API的使用
5.3.1hdfs模塊
5.3.2pyhdfs模塊
5.4本章小結(jié)
5.5課后習(xí)題
5.6實(shí)訓(xùn)
第6章MapReduce技術(shù)
6.1MapReduce工作原理
6.1.1MapReduce作業(yè)流程
6.1.2早期MapReduce架構(gòu)存在的問(wèn)題
6.2YARN運(yùn)行概述
6.2.1yarn模塊介紹
6.2.2YARN的工作流程
6.3利用Python進(jìn)行MapReduce編程
6.3.1Hadoop Streaming概述
6.3.2Hadoop Streaming原理
6.3.3Hadoop Streaming用法
6.3.4Python編寫(xiě)MapReduce環(huán)境搭建
6.3.5用Python編寫(xiě)MapReduce代碼入門(mén)程序(詞頻統(tǒng)計(jì))
6.3.6清洗數(shù)據(jù)
6.4mrjob模塊
6.4.1mrjob模塊概述
6.4.2安裝mrjob模塊
6.4.3mrjob模塊的第一個(gè)例子(詞頻統(tǒng)計(jì))
6.4.4mrjob模塊的運(yùn)行方式
6.4.5MRJob類(lèi)的工作原理
6.4.6mrjob模塊的數(shù)據(jù)清洗
6.4.7mrjob模塊的兩表合并
6.5本章小結(jié)
6.6課后習(xí)題
6.7實(shí)訓(xùn)
第7章Hive數(shù)據(jù)倉(cāng)庫(kù)
7.1Hive模型
7.1.1Hive的架構(gòu)與基本組成
7.1.2Hive的數(shù)據(jù)模型
7.2Hive安裝
7.2.1Hive的基本安裝
7.2.2MySQL的安裝
7.2.3Hive的配置
7.3HiveQL詳解
7.3.1元數(shù)據(jù)存儲(chǔ)
7.3.2數(shù)據(jù)存儲(chǔ)
7.3.2HQL操作
7.4本章小結(jié)
7.5課后習(xí)題
7.6實(shí)訓(xùn)
第8章HBase分布式數(shù)據(jù)庫(kù)
8.1HBase工作原理
8.1.1HBase的表結(jié)構(gòu)
8.1.2體系結(jié)構(gòu)
8.1.3物理模型
8.1.4HBase讀寫(xiě)流程
8.2HBase完全分布式
8.2.1安裝前準(zhǔn)備
8.2.2配置文件
8.2.3集群?jiǎn)?dòng)
8.3HBase Shell
8.3.1DDL操作
8.3.2DML操作
8.4本章小結(jié)
8.5課后習(xí)題
第9章Sqoop工具
9.1Sqoop的安裝
9.2Sqoop的使用
9.2.1MySQL數(shù)據(jù)的導(dǎo)入導(dǎo)出
9.2.2Oracle數(shù)據(jù)的導(dǎo)入導(dǎo)出
9.3本章小結(jié)
9.4課后習(xí)題
第10章Hadoop實(shí)戰(zhàn)貨運(yùn)車(chē)分布分析平臺(tái)
10.1需求分析
10.2案例1: 各個(gè)城市中各種貨運(yùn)車(chē)的數(shù)量
10.2.1業(yè)務(wù)簡(jiǎn)介
10.2.2業(yè)務(wù)模型
10.2.3業(yè)務(wù)邏輯
10.2.4數(shù)據(jù)呈現(xiàn)
10.3案例2: 報(bào)廢貨運(yùn)車(chē)占比
10.3.1業(yè)務(wù)簡(jiǎn)介
10.3.2業(yè)務(wù)模型
10.3.3業(yè)務(wù)邏輯
10.3.4數(shù)據(jù)呈現(xiàn)
10.4案例3: 各種貨運(yùn)車(chē)的總量
10.4.1業(yè)務(wù)簡(jiǎn)介
10.4.2業(yè)務(wù)模型
10.4.3業(yè)務(wù)邏輯
10.4.4數(shù)據(jù)呈現(xiàn)