本書通過大量的繪圖和詳細的說明,從技術層面以簡單易懂的形式講述大數(shù)據(jù)分析。這是一本從系統(tǒng)結構搭建到實際開發(fā)逐步推進的教科書。
書中的知識點包括大數(shù)據(jù)分析時所需的分布式處理、機器學習,以及分布式存儲、分布式計算、開發(fā)時可能遇到的瓶頸,還包括大數(shù)據(jù)的收集、積累、活用以及元數(shù)據(jù)的使用與管理等。
本書適合大數(shù)據(jù)領域的廣大愛好者、商務人士和工程技術人員用于了解、學習、掌握、運用大數(shù)據(jù)技術進行大數(shù)據(jù)分析,也適合作為該領域的職業(yè)院校和高校本科相關專業(yè)的教材及研究生輔助教材。
第1章 大數(shù)據(jù)分析概述
1.1 大數(shù)據(jù)和分布式處理
網(wǎng)絡的普及導致了大量數(shù)據(jù)的增加 002
1.2 非結構化數(shù)據(jù)的增加和機器學習
分析文本、聲音、圖像等數(shù)據(jù) 006
1.3 大數(shù)據(jù)分析系統(tǒng)
在分布式處理與機器學習驅動下將數(shù)據(jù)利潤化 010
1.4 企業(yè)中大數(shù)據(jù)活用的各個階段
大數(shù)據(jù)分析要從一小步開始 014
1.5 活用大數(shù)據(jù)分析時所需的三個角色
數(shù)據(jù)業(yè)務員、科學分析員、工程技術員 020
1.6 工程技術員的價值在哪里
為什么完成了驗證實驗后仍然無法實現(xiàn)真正的系統(tǒng)化 026
第2章 大數(shù)據(jù)分析系統(tǒng)的結構
2.1 整體結構概述
數(shù)據(jù)的收集、積累、活用 032
2.2 數(shù)據(jù)的生成和收集
利用業(yè)務系統(tǒng)生成數(shù)據(jù),利用分析系統(tǒng)收集數(shù)據(jù) 036
2.3 數(shù)據(jù)的積累
數(shù)據(jù)池與數(shù)據(jù)倉庫 040
2.4 數(shù)據(jù)的活用
應用于企業(yè)決策和增加利潤 044
第3章 分布式處理的基礎知識
3.1 對瓶頸問題的分析
系統(tǒng)性能上的一些問題 048
3.2 上述三種瓶頸以外的與性能相關的問題
內(nèi)存枯竭,以及沒有瓶頸但性能仍然很差的原因 052
3.3 分布式存儲
消除磁盤瓶頸的技術 056
3.4 分布式計算
消除處理器瓶頸的技術 060
3.5 分布式系統(tǒng)的網(wǎng)絡
消除網(wǎng)絡的瓶頸 064
3.6 資源管理器
支撐分布式處理的資源管理 068
3.7 分布式處理的開發(fā)方式
Hadoop、自行開發(fā)、云服務 070
第4章 機器學習的基礎知識
4.1 機器學習
對變換成向量的數(shù)據(jù)進行處理的函數(shù) 076
4.2 數(shù)據(jù)的準備和預處理
機器學習的開發(fā)過程(前篇) 082
4.3 模型預估與系統(tǒng)化
機器學習的開發(fā)過程(中篇) 086
4.4 正式發(fā)布與性能提升
機器學習的開發(fā)過程(后篇) 090
4.5 深度學習
引發(fā)機器學習熱潮的火種 094
4.6 機器學習工具
工程師必備的幾個重要工具 098
4.7 科學分析員與工程技術員的不同角色
系統(tǒng)化與數(shù)據(jù)準備等大量的工作 104
第5章 大數(shù)據(jù)的收集
5.1 批數(shù)據(jù)收集和流數(shù)據(jù)收集
數(shù)據(jù)收集的種類 108
5.2 文件數(shù)據(jù)的收集與文件格式
文件形式數(shù)據(jù)的收集 112
5.3 基于SQL的數(shù)據(jù)收集
從數(shù)據(jù)庫中收集數(shù)據(jù)(前篇) 116
5.4 基于數(shù)據(jù)輸出和同步更新日志的數(shù)據(jù)收集
從數(shù)據(jù)庫中收集數(shù)據(jù)(后篇) 120
5.5 API數(shù)據(jù)收集與刮擦收集
其他的批數(shù)據(jù)收集方式 124
5.6 批數(shù)據(jù)收集的開發(fā)方法
可以利用ETL軟件制品也可以自行開發(fā) 128
5.7 分布式隊列與流處理
流數(shù)據(jù)收集概述 132
5.8 流數(shù)據(jù)收集中的分布式隊列
了解分布式隊列的特性 136
5.9 生產(chǎn)者、分布式隊列和消費者
流數(shù)據(jù)收集的開發(fā)方法 140
5.10 應對數(shù)據(jù)結構的變化
數(shù)據(jù)結構會隨著業(yè)務的發(fā)展而變化 143
第6章 大數(shù)據(jù)的積累
6.1 數(shù)據(jù)池與數(shù)據(jù)倉庫
要分別準備好原始數(shù)據(jù)和用于分析的數(shù)據(jù) 148
6.2 分析型數(shù)據(jù)庫
操作型數(shù)據(jù)庫與分析型數(shù)據(jù)庫的不同之處 152
6.3 面向列的數(shù)據(jù)格式化
在列方向上壓縮數(shù)據(jù)后實現(xiàn)分析處理的高速化 156
6.4 SQL on Hadoop
分析型DB的選擇方法(前篇) 160
6.5 DWH制品
分析型DB的選擇方法(后篇) 166
第7章 大數(shù)據(jù)的活用
7.1 數(shù)據(jù)市場
根據(jù)不同目的來加工數(shù)據(jù) 172
7.2 即席分析
可以自主地分析數(shù)據(jù)并進行決策 178
7.3 構筑即席分析環(huán)境
支持數(shù)據(jù)利用者和進行資源管理的必要性 182
7.4 數(shù)據(jù)可視化
任何人都可以基于數(shù)據(jù)做出決策 186
7.5 數(shù)據(jù)應用程序
互聯(lián)網(wǎng)企業(yè)的活用案例 190
第8章 元數(shù)據(jù)的管理
8.1 整體概念和靜態(tài)元數(shù)據(jù)
元數(shù)據(jù)管理(前篇) 194
8.2 動態(tài)元數(shù)據(jù)和元數(shù)據(jù)管理的實現(xiàn)方法
元數(shù)據(jù)管理(后篇) 198
8.3 數(shù)據(jù)結構管理
如何定義數(shù)據(jù) 202
8.4 數(shù)據(jù)沿襲管理
數(shù)據(jù)從何而來,又去往何處 208
8.5 數(shù)據(jù)新鮮度的管理
表明這是什么時候的數(shù)據(jù) 212
后記 216