本書詳細闡述了大數(shù)據(jù)領(lǐng)域數(shù)據(jù)采集與預(yù)處理的相關(guān)理論和技術(shù)。全書共8章,內(nèi)容包括概述、大數(shù)據(jù)實驗環(huán)境搭建、網(wǎng)絡(luò)數(shù)據(jù)采集、分布式消息系統(tǒng)Kafka、日志采集系統(tǒng)Flume、數(shù)據(jù)倉庫中的數(shù)據(jù)集成、ETL工具Kettle、使用pandas進行數(shù)據(jù)清洗。本書在第3章至第8章中安排了豐富的實踐操作,以便讀者更好地學(xué)習(xí)和掌握數(shù)據(jù)采集與預(yù)處理的關(guān)鍵技術(shù)。 本書可以作為高等院校大數(shù)據(jù)專業(yè)的大數(shù)據(jù)課程教材,也可供相關(guān)技術(shù)人員參考。
1.本書作者為大數(shù)據(jù)領(lǐng)域的知名作者廈門大學(xué)林子雨,作者長期從事大數(shù)據(jù)教學(xué),在大數(shù)據(jù)教育領(lǐng)域有較高的知名度和較大的影響力,其編著的《大數(shù)據(jù)技術(shù)原理與應(yīng)用 概念、存儲、處理、 分析與應(yīng)用(第3版)》一書今年銷售預(yù)計超過5萬冊;
2.本書內(nèi)容全面,配套資源豐富:PPT、教學(xué)大綱、授課視頻、實驗指南、課后習(xí)題答案等;
3.有服務(wù)平臺:作者教學(xué)團隊打造了在線的高校大數(shù)據(jù)課程公共服務(wù)平臺,為全國高校師生提供相關(guān)教學(xué)服務(wù)并經(jīng)常更新。目前該平臺已經(jīng)成為國內(nèi)高校大數(shù)據(jù)教學(xué)品牌,平臺累計訪問量超過1300萬次;
4.有教師服務(wù)QQ群:916443807。
林子雨 博士,國內(nèi)高校知名大數(shù)據(jù)教師,廈門大學(xué)計算機科學(xué)系副教授,廈門大學(xué)信息學(xué)院實驗教學(xué)中心主任,廈門大學(xué)數(shù)據(jù)庫實驗室負責(zé)人,中國高校首個數(shù)字教師提出者和建設(shè)者。2013年開始在廈門大學(xué)開設(shè)大數(shù)據(jù)課程,建設(shè)了國內(nèi)高校首個大數(shù)據(jù)課程公共服務(wù)平臺,平臺累計網(wǎng)絡(luò)訪問量超過1000萬次,成為全國高校大數(shù)據(jù)教學(xué)知名品牌,并榮獲2018年福建省教學(xué)成果二等獎和2018年廈門大學(xué)教學(xué)成果特等獎,主持的課程大數(shù)據(jù)技術(shù)原理與應(yīng)用獲評2018年國家精品在線開放課程和2020年線上一流本科課程。
第 1 章概述.
1.1 數(shù)據(jù)
1.1.1 數(shù)據(jù)的概念.
1.1.2 數(shù)據(jù)類型
1.1.3 數(shù)據(jù)的組織形式.
1.1.4 數(shù)據(jù)的價值
1.1.5 數(shù)據(jù)爆炸.
1.2 數(shù)據(jù)分析過程.
1.3 數(shù)據(jù)采集與預(yù)處理的任務(wù)
1.4 數(shù)據(jù)采集
1.4.1 數(shù)據(jù)采集的概念
1.4.2 數(shù)據(jù)采集的三大要點
1.4.3 數(shù)據(jù)采集的數(shù)據(jù)源.
1.4.4 數(shù)據(jù)采集方法.
1.5 數(shù)據(jù)清洗
1.5.1 數(shù)據(jù)清洗的應(yīng)用領(lǐng)域
1.5.2 數(shù)據(jù)清洗的實現(xiàn)方式.
1.5.3 數(shù)據(jù)清洗的內(nèi)容.
1.5.4 數(shù)據(jù)清洗的注意事項
1.5.5 數(shù)據(jù)清洗的基本.流.程.
1.5.6 數(shù)據(jù)清洗的評價標(biāo).
1.6 數(shù)據(jù)集成.
1.7 數(shù)據(jù)轉(zhuǎn)換.
1.7.1 數(shù)據(jù)轉(zhuǎn)換策略.
1.7.2 平滑處理
1.7.3 規(guī)范化處理.
1.8 數(shù)據(jù)脫敏.
1.8.1 數(shù)據(jù)脫敏原則.
1.8.2 數(shù)據(jù)脫敏方法.
1.9 本章小結(jié).
1.10 習(xí)題
第 2 章 大數(shù)據(jù)實驗環(huán)境搭建.
2.1 Python 的安裝和使用.
2.1.1 Python 簡介
2.1.2 Python 的安裝
2.1.3 Python 的基本使用方法
2.1.4 Python 基礎(chǔ)語法知識
2.1.5 Python 第三方模塊的安裝。
2.2 JDK 的安裝.
2.3 MySQL 數(shù)據(jù)庫的安裝和使用
2.3.1 關(guān)系數(shù)據(jù)庫
2.3.2 關(guān)系數(shù)據(jù)庫標(biāo)準(zhǔn)語言SQL
2.3.3 安裝MySQL
2.3.4 MySQL 數(shù)據(jù)庫的使用方法
2.3.5 使用 Ppython操作MySQL數(shù)據(jù)庫
2.4 Hadoop的安裝和使用
2.4.1 Hadoop簡介
2.4.2分布式系統(tǒng)HDFS
2.4.3 Hadoop安裝
2.4.4 Hadoop的基本使用方法
第 3 章網(wǎng)絡(luò)數(shù)據(jù)采集.
3.1 網(wǎng)絡(luò)爬蟲概述.
3.1.1 什么是網(wǎng)絡(luò)爬蟲
3.1.2網(wǎng)絡(luò)爬蟲的類型
3.1.3反爬機制
3.2 網(wǎng)頁基礎(chǔ)知識
3.2.1超文本和HTML
3.2.2 HTTP.
3.3 用 Python 實現(xiàn)HTTP請求
3.3.1 urllib模塊
3.3.2 urllib3 模塊.
3.3.3 requests 模塊.
3.4 定制 request.s.
3.4.1 傳遞 URL參數(shù),
3.4.2 定制請求頭,
3.4.3 網(wǎng)絡(luò)超時
3.5 解析網(wǎng)頁
3.5.1 BeautifulSoup 簡介.
3.5.2 BeautifulSoup 四大對象
3.5.3 遍歷文件樹
3.5.4 搜索文檔樹
3.5.5 CSS選擇器
3.6 綜合實例
實例1:采集網(wǎng)頁數(shù)據(jù)保存到文本
實例2:采集網(wǎng)頁數(shù)據(jù)保存到MYSQL數(shù)據(jù)庫
3.7 Scrapy 框架
3.7.1 Scrapy 框架概述
3.7.2 XPath 語言
3.7.3 Scrapy 框架應(yīng)用實例,
3.8 本章小結(jié)
3.9 習(xí)題.
實驗 2 網(wǎng)絡(luò)爬蟲初級實踐
第 4 章分布式消息系統(tǒng) afu.a .
4.1 Kafka 簡介
4.1.1 Kafk的特性
4.1.2 Kafka 的應(yīng)用場景.
4.1.3 Kafka 的消息傳遞模式….
4.2 Kafka 在大數(shù)據(jù)生態(tài)系統(tǒng)中的作-用
4.3 Kafka 與 Flume 的區(qū)別與聯(lián)
4.4 Kafka 相關(guān)概念
4.5 Kafka 的安裝和使用
4.5.1 安裝Kafk
4.5.2 使用 Kafka
4.6 使用 Python 操作 Kafka
4.7 Kafka 與 MysQL 的組合使用,
4.8 本章小結(jié)
4.9 習(xí)題
實驗 3 熟悉 Kafka 的基本使用方法
第 5 章日志采集統(tǒng)Flume
5.1 Flume 簡介.
5.2 Flume 的安裝和使用
5.2.1 Flume 的安裝.
5.2.2 Flume 的使用.
5.3 Flume 和 Kafka 的組合使用.
5.4 采集日志文件到 HDFS.
5.4.1 采集目錄到 HDFS
5.4.2 采集文件到 HDFS.
5.5 采集 MySQL 數(shù)據(jù)到 HDFS
5.5.1 準(zhǔn)備工作
5.5.2 創(chuàng)建 MysQL 數(shù)據(jù)庫.
5.6 本章小結(jié).
5.7 習(xí)題
實驗 4熟悉 Flume 的基本使用方法
第 6 章 數(shù)據(jù)倉庫中的數(shù)據(jù)集成
6.1數(shù)據(jù)倉庫的概念
6.1.1傳統(tǒng)的數(shù)據(jù)倉庫
6.1.2 實時主動數(shù)據(jù)倉庫
6.2 數(shù)據(jù)集成
6.2.1 數(shù)據(jù)集成方式
6.2.2 數(shù)據(jù)分發(fā)方式
6.2.3 數(shù)據(jù)集成技術(shù)
6.3 ETL.
6.3.1 ETL 簡介.
6.3.2 ETL基本模塊
6.3.3 ETL工具
6.4 CDC .
6.4.1 CDC 的特性
6.4.2 CDC 的組成
6.4.3 CDC 的應(yīng)用場景
6.4.4 CDC 需要考慮的問題
6.5 本章小結(jié)
6.6 習(xí)題
第7章 ETL工具的Kettle
7.1 Kettle 的基本概念!
7.2 Kettle 的基本功能
7.3 安裝 Kettle. .
7.4 數(shù)據(jù)抽取
7.4.1 把文本文件導(dǎo)入Excel 文件
7.4.2 把文本文件導(dǎo)入 MySQL 數(shù)據(jù)庫
7.4.3 把 Excel 文件導(dǎo)入MySQL數(shù)據(jù)庫
7.5 數(shù)據(jù)清洗與轉(zhuǎn)換
7.5.1 使用 Kettle 實現(xiàn)數(shù)據(jù)排序
7.5.2 在 Kettle 中用正則表達式清洗數(shù)據(jù)
7.5.3 使用 Kettle 去除缺失值
7.5.4 使用 Kettle 轉(zhuǎn)化 MySQL 數(shù)據(jù)庫中的數(shù)據(jù)
7.6 數(shù)據(jù)加載
7.6.1 把本地文件加載到 HDFS 中
7.6.2 把 HDFS 文件加載到 MySQL 數(shù)庫
7.7 本章.小結(jié).
7.8 習(xí)題
實驗 5 熟悉 Kettle 的基本使用方法
第 8 章 使用 pandas 進行數(shù)據(jù)清洗
8.1 NumPy 的基本使用方法
8.1.1 數(shù)組創(chuàng)建
8.1.2數(shù)組索引和切片
8.1.3 數(shù)組運算
8.2 pandas的數(shù)據(jù)結(jié)構(gòu)
8.2.2 Series
8.2.2 DataFrame
8.2.3索引對象
8.3 pandas的基本功能
8.3.1 重新索引.
8.3.2 丟棄指定軸上的項
8.3.3 索引、選取和濾.
8.3.4 算術(shù)運算.
8.3.5 DataFrame 和 Series 之間的運算.
8.3.6 函數(shù)應(yīng)用和映射
8.3.7 排序和排名
8.3.8 分組
8.3.9 shape函數(shù)
8.3.10 info()函數(shù)
8.3.11 cut()函數(shù)
8.4 匯總和描述統(tǒng)計
8.4.1 與描述統(tǒng)計相關(guān)的函數(shù)
8.4.2 值、值計數(shù)以及成員資格,
8.5 處理缺失數(shù)據(jù)
8.5.1 檢查缺失值
8.5.2 清理 填充缺失值.
8.5.3 排除缺少的值
8.6 綜合實例
8.6.1 Matplotlib 的使用方法
8.6.2 實例 1:對一個數(shù)據(jù)集進行基本操作
8.6.3 實例 2:百度搜索指數(shù)分析
8.6.4 實例 3:電影評分數(shù)據(jù)分析
8.6.5 實例 4:App行為數(shù)據(jù)預(yù)處理
8.7 本章小結(jié)
8.8 習(xí)題
實驗6 pandas數(shù)據(jù)清洗初級實踐
參考文獻