第一篇基礎(chǔ)篇
第1章大數(shù)據(jù)簡介
1.1大數(shù)據(jù)
1.1.1大數(shù)據(jù)的定義
1.1.2大數(shù)據(jù)的特點(diǎn)
1.1.3大數(shù)據(jù)處理的挑戰(zhàn)
1.2大數(shù)據(jù)挖掘
1.2.1大數(shù)據(jù)挖掘的定義
1.2.2大數(shù)據(jù)挖掘的特點(diǎn)
1.3大數(shù)據(jù)挖掘的相關(guān)方法
1.3.1數(shù)據(jù)預(yù)處理技術(shù)
1.3.2關(guān)聯(lián)規(guī)則挖掘
1.3.3分類
1.3.4聚類
1.3.5孤立點(diǎn)挖掘
1.3.6演變分析
1.3.7特異群組分析
1.4大數(shù)據(jù)挖掘類型
1.4.1Web數(shù)據(jù)挖掘
1.4.2空間數(shù)據(jù)挖掘
1.4.3流數(shù)據(jù)挖掘
1.5大數(shù)據(jù)挖掘的常見應(yīng)用
1.5.1社交網(wǎng)絡(luò)分析
1.5.2文本分析
1.5.3推薦系統(tǒng)
1.6常用的大數(shù)據(jù)統(tǒng)計(jì)分析方法
1.6.1百分位
1.6.2皮爾森相關(guān)系數(shù)
1.6.3直方圖
1.6.4T檢驗(yàn)
1.6.5卡方檢驗(yàn)
1.7常用的大數(shù)據(jù)挖掘評(píng)估方法
1.8大數(shù)據(jù)平臺(tái)相關(guān)技術(shù)
1.8.1分布式存儲(chǔ)技術(shù)
1.8.2分布式任務(wù)調(diào)度技術(shù)
1.8.3并行計(jì)算技術(shù)
1.8.4其他技術(shù)
1.9大數(shù)據(jù)平臺(tái)實(shí)例阿里云數(shù)加平臺(tái)
1.9.1數(shù)加平臺(tái)簡介
1.9.2數(shù)加平臺(tái)產(chǎn)品簡介
1.9.3數(shù)加平臺(tái)優(yōu)勢特色
1.9.4機(jī)器學(xué)習(xí)平臺(tái)簡介
1.9.5機(jī)器學(xué)習(xí)平臺(tái)功能
1.9.6機(jī)器學(xué)習(xí)平臺(tái)操作流程
1.10小結(jié)
思考題
第二篇技術(shù)篇
第2章數(shù)據(jù)預(yù)處理技術(shù)
2.1數(shù)據(jù)預(yù)處理的目的
2.2數(shù)據(jù)采樣
2.2.1加權(quán)采樣
2.2.2隨機(jī)采樣
2.2.3分層采樣
2.3數(shù)據(jù)清理
2.3.1填充缺失值
2.3.2光滑噪聲數(shù)據(jù)
2.3.3數(shù)據(jù)清理過程
2.4數(shù)據(jù)集成
2.4.1數(shù)據(jù)集成簡介
2.4.2常用數(shù)據(jù)集成方法
2.5數(shù)據(jù)變換
2.5.1數(shù)據(jù)變換簡介
2.5.2數(shù)據(jù)規(guī)范化
2.6數(shù)據(jù)歸約
2.6.1數(shù)據(jù)立方體聚集
2.6.2維歸約
2.6.3數(shù)據(jù)壓縮
2.6.4數(shù)值歸約
2.6.5數(shù)據(jù)離散化與概念分層
2.7特征選擇
2.7.1特征選擇簡介
2.7.2Relief算法
2.7.3Fisher判別法
2.7.4基于GBDT的過濾式特征選擇
2.8特征提取
2.8.1特征提取簡介
2.8.2DKLT特征提取方法
2.8.3主成分分析法
2.9基于阿里云數(shù)加平臺(tái)的數(shù)據(jù)采樣與特征選擇實(shí)例
2.10小結(jié)
思考題
第3章邏輯回歸方法
3.1基本概念
3.1.1回歸概述
3.1.2線性回歸簡介
3.2邏輯回歸
3.2.1二分類邏輯回歸
3.2.2多分類邏輯回歸
3.2.3邏輯回歸應(yīng)用舉例
3.2.4邏輯回歸方法的特點(diǎn)
3.2.5邏輯回歸方法的應(yīng)用
3.3邏輯回歸源代碼結(jié)果分析
3.3.1線性回歸
3.3.2多分類邏輯回歸
3.4基于阿里云數(shù)加平臺(tái)的邏輯回歸實(shí)例
3.4.1二分類邏輯回歸應(yīng)用實(shí)例
3.4.2多分類邏輯回歸應(yīng)用實(shí)例
3.5小結(jié)
思考題
第4章KNN算法
4.1KNN算法簡介
4.1.1KNN算法原理
4.1.2KNN算法應(yīng)用舉例
4.2KNN算法的特點(diǎn)及改進(jìn)
4.2.1KNN算法的特點(diǎn)
4.2.2KNN算法的改進(jìn)策略
4.3KNN源代碼結(jié)果分析
4.4基于阿里云數(shù)加平臺(tái)的KNN算法應(yīng)用實(shí)例
4.5小結(jié)
思考題
第5章樸素貝葉斯分類算法
5.1基本概念
5.1.1主觀概率
5.1.2貝葉斯定理
5.1.3樸素貝葉斯分類模型
5.1.4樸素貝葉斯分類器實(shí)例分析
5.2樸素貝葉斯算法的特點(diǎn)及應(yīng)用
5.2.1樸素貝葉斯算法的特點(diǎn)
5.2.2樸素貝葉斯算法的應(yīng)用場景
5.3樸素貝葉斯源代碼結(jié)果分析
5.4基于阿里云數(shù)加平臺(tái)的樸素貝葉斯實(shí)例
5.5小結(jié)
思考題
第6章隨機(jī)森林分類算法
6.1隨機(jī)森林算法簡介
6.1.1隨機(jī)森林算法原理
6.1.2隨機(jī)森林算法應(yīng)用舉例
6.2隨機(jī)森林算法的特點(diǎn)及應(yīng)用
6.2.1隨機(jī)森林算法的特點(diǎn)
6.2.2隨機(jī)森林算法的應(yīng)用
6.3隨機(jī)森林算法源程序結(jié)果分析
6.4基于阿里云數(shù)加平臺(tái)的隨機(jī)森林分類實(shí)例
6.5小結(jié)
思考題
第7章支持向量機(jī)
7.1基本概念
7.1.1支持向量機(jī)理論基礎(chǔ)
7.1.2統(tǒng)計(jì)學(xué)習(xí)核心理論
7.1.3學(xué)習(xí)過程的一致性條件
7.1.4函數(shù)集的VC維
7.1.5泛化誤差界
7.1.6結(jié)構(gòu)風(fēng)險(xiǎn)最小化歸納原理
7.2支持向量機(jī)原理
7.2.1支持向量機(jī)核心理論
7.2.2最大間隔分類超平面
7.2.3支持向量機(jī)
7.2.4核函數(shù)分類
7.3支持向量機(jī)的特點(diǎn)及應(yīng)用
7.3.1支持向量機(jī)的特點(diǎn)
7.3.2支持向量機(jī)的應(yīng)用
7.4支持向量機(jī)分類實(shí)例分析
7.5基于阿里云數(shù)加平臺(tái)的支持向量機(jī)分類實(shí)例
7.6小結(jié)
思考題
第8章Kmeans聚類算法
8.1Kmeans聚類算法原理
8.1.1Kmeans聚類算法原理解析
8.1.2Kmeans聚類算法應(yīng)用舉例
8.2Kmeans聚類算法的特點(diǎn)及應(yīng)用
8.2.1Kmeans聚類算法的特點(diǎn)
8.2.2Kmeans聚類算法的應(yīng)用
8.3K均值聚類算法源程序結(jié)果分析
8.4基于阿里云數(shù)加平臺(tái)的K均值聚類算法實(shí)例
8.5基于MaxCompute Graph模型的Kmeans算法源程序分析
8.6小結(jié)
思考題
第三篇綜合應(yīng)用篇
第9章社交網(wǎng)絡(luò)分析方法及應(yīng)用
9.1社交網(wǎng)絡(luò)簡介
9.2K核方法
9.2.1K核方法原理
9.2.2基于阿里云數(shù)加平臺(tái)的K核方法實(shí)例
9.3單源最短路徑方法
9.3.1單源最短路徑方法原理
9.3.2基于阿里云數(shù)加平臺(tái)的單源最短路徑方法實(shí)例
9.4PageRank算法
9.4.1PageRank算法原理
9.4.2PageRank算法的特點(diǎn)及應(yīng)用
9.4.3基于阿里云數(shù)加平臺(tái)的PageRank算法實(shí)例
9.5標(biāo)簽傳播算法
9.5.1標(biāo)簽傳播算法原理
9.5.2基于阿里云數(shù)加平臺(tái)的標(biāo)簽傳播聚類應(yīng)用實(shí)例
9.6最大聯(lián)通子圖算法
9.7聚類系數(shù)算法
9.7.1聚類系數(shù)算法原理
9.7.2基于阿里云數(shù)加平臺(tái)的聚類系數(shù)算法應(yīng)用實(shí)例
9.8基于阿里云數(shù)加平臺(tái)的社交網(wǎng)絡(luò)分析實(shí)例
9.9小結(jié)
思考題
第10章文本分析方法及應(yīng)用
10.1文本分析簡介
10.2TFIDF方法
10.3中文分詞方法
10.3.1基于字典或詞庫匹配的分詞方法
10.3.2基于詞的頻度統(tǒng)計(jì)的分詞方法
10.3.3其他中文分詞方法
10.4PLDA方法
10.4.1主題模型
10.4.2PLDA方法原理
10.5Word2Vec基本原理
10.5.1詞向量的表示方式
10.5.2統(tǒng)計(jì)語言模型
10.5.3霍夫曼編碼
10.5.4Word2Vec原理簡介
10.6基于阿里云數(shù)加平臺(tái)的文本分析實(shí)例
10.7小結(jié)
思考題
第11章推薦系統(tǒng)方法及應(yīng)用
11.1推薦系統(tǒng)簡介
11.2基于內(nèi)容的推薦算法
11.2.1基于內(nèi)容的推薦算法原理
11.2.2基于內(nèi)容的推薦算法的特點(diǎn)
11.3協(xié)同過濾推薦算法
11.3.1協(xié)同過濾推薦算法簡介
11.3.2協(xié)同過濾推薦算法的特點(diǎn)
11.4混合推薦算法
11.5基于阿里云數(shù)加平臺(tái)的推薦算法實(shí)例
11.6小結(jié)
思考題
參考文獻(xiàn)