定 價:55 元
叢書名:大數(shù)據(jù)與商務(wù)智能系列
- 作者:謝笑盈
- 出版時間:2023/3/1
- ISBN:9787121452383
- 出 版 社:電子工業(yè)出版社
- 中圖法分類:TP274
- 頁碼:280
- 紙張:
- 版次:01
- 開本:16開
本書首先簡要介紹了大數(shù)據(jù)分析與挖掘的相關(guān)概念,以及R語言的基礎(chǔ)知識,以此來幫助讀者了解、使用R語言;其次詳細介紹了探索性數(shù)據(jù)分析、數(shù)據(jù)采集,以此來幫助讀者了解數(shù)據(jù)的基本分析方法和數(shù)據(jù)的獲取方法;然后著重介紹了目前主流的數(shù)據(jù)挖掘算法——時間序列算法、線性回歸算法、分類算法、關(guān)聯(lián)算法、聚類算法,從算法的原理到如何使用R語言進行算法實現(xiàn)都進行了詳細的介紹并提供了實操代碼,以此幫助讀者學習數(shù)據(jù)挖掘及使用R語言完成數(shù)據(jù)挖掘任務(wù);最后通過6個旅游行業(yè)的實際案例來幫助讀者將學習到的知識運用到真實的業(yè)務(wù)場景中,并融會貫通整個知識體系。 本書無須讀者具備R語言和大數(shù)據(jù)分析與挖掘的基礎(chǔ)知識。無論是R語言初學者,還是熟練的R語言用戶,都能從本書中找到有用的內(nèi)容。本書既可以作為一本學習R語言的教材,也可以作為大數(shù)據(jù)分析與挖掘的工具書。
謝笑盈:統(tǒng)計學博士、副教授、碩士生導師、澳大利亞科廷大學訪問學者,研究方向為大數(shù)據(jù)統(tǒng)計分析方法與應用。近5年來,主持完成國家社科基金項目1項,國家統(tǒng)計局重點項目1項;以第一作者或通訊作者身份發(fā)表中科院SCI1區(qū)TOP論文1篇、SCI2區(qū)TOP論文1篇、ESI高被引論文1篇、EI檢索論文3篇,其他中文核心以上刊物論文5篇;指導學生獲得全國大學生市場調(diào)查與分析大賽總決賽三等獎1次、浙江省大學生市場調(diào)查與分析大賽一等獎2次、浙江省金融創(chuàng)新大賽一等獎1次。
第1章 大數(shù)據(jù)分析與挖掘概論 1
1.1 大數(shù)據(jù)分析與挖掘 1
1.1.1 大數(shù)據(jù)定義 1
1.1.2 大數(shù)據(jù)分析與挖掘的概念 2
1.2 大數(shù)據(jù)分析與挖掘流程 3
1.2.1 數(shù)據(jù)獲取 3
1.2.2 數(shù)據(jù)預處理 3
1.2.3 數(shù)據(jù)分析 4
1.2.4 數(shù)據(jù)解釋 5
1.3 大數(shù)據(jù)分析與挖掘應用 5
1.3.1 優(yōu)化任務(wù) 5
1.3.2 預測任務(wù) 5
1.3.3 分類任務(wù) 5
1.3.4 識別任務(wù) 6
第2章 R語言編程基礎(chǔ) 7
2.1 R語言的安裝及配置 7
2.1.1 R語言的獲取和安裝 8
2.1.2 RStudio的獲取和安裝 9
2.2 界面與菜單 12
2.2.1 RGui界面 12
2.2.2 RStudio界面 12
2.3 變量與數(shù)據(jù)類型 15
2.3.1 變量 15
2.3.2 數(shù)據(jù)類型 15
2.4 數(shù)據(jù)結(jié)構(gòu) 17
2.4.1 向量 17
2.4.2 數(shù)組 19
2.4.3 矩陣 21
2.4.4 列表 22
2.4.5 數(shù)據(jù)框 23
2.4.6 因子 25
2.5 控制語句 26
2.5.1 條件語句 26
2.5.2 循環(huán)語句 28
2.6 函數(shù) 30
2.6.1 內(nèi)置函數(shù) 30
2.6.2 自定義函數(shù) 33
第3章 數(shù)據(jù)預處理 35
3.1 數(shù)據(jù)表的基本操作 35
3.1.1 數(shù)據(jù)表保存 35
3.1.2 數(shù)據(jù)表讀取 37
3.1.3 選取子集 40
3.1.4 連接數(shù)據(jù)庫 42
3.2 數(shù)據(jù)分組、分割、合并和變形 44
3.2.1 數(shù)據(jù)分組 44
3.2.2 數(shù)據(jù)分割 46
3.2.3 數(shù)據(jù)合并 47
3.2.4 數(shù)據(jù)變形 49
3.3 缺失值、異常值、重復值處理 52
3.3.1 缺失值 52
3.3.2 異常值 59
3.3.3 重復值 61
3.4 數(shù)據(jù)類型的轉(zhuǎn)換 62
3.4.1 判斷數(shù)據(jù)類型函數(shù) 62
3.4.2 轉(zhuǎn)換數(shù)據(jù)類型的函數(shù) 63
3.5 提取字符 64
3.5.1 截取字符 64
3.5.2 正則表達式 65
第4章 探索性數(shù)據(jù)分析 69
4.1 描述性統(tǒng)計方法 69
4.1.1 常用統(tǒng)計指標 69
4.1.2 數(shù)據(jù)總結(jié) 70
4.2 數(shù)據(jù)可視化 72
4.2.1 箱線圖 72
4.2.2 直方圖 74
4.2.3 散點圖 75
4.2.4 餅圖 77
第5章 數(shù)據(jù)采集 80
5.1 網(wǎng)絡(luò)數(shù)據(jù)采集的原理 80
5.1.1 網(wǎng)頁通信的過程 80
5.1.2 請求數(shù)據(jù)的方法 87
5.1.3 網(wǎng)頁的組成元素 88
5.2 數(shù)據(jù)采集入門 90
5.2.1 數(shù)據(jù)采集常用包概述 90
5.2.2 數(shù)據(jù)采集前的準備 91
5.2.3 編寫第一個數(shù)據(jù)采集 92
5.3 使用常用的R包采集數(shù)據(jù) 96
5.3.1 使用RCurl包獲取網(wǎng)絡(luò)數(shù)據(jù) 96
5.3.2 使用rvest包獲取網(wǎng)絡(luò)數(shù)據(jù) 98
5.3.3 使用httr包獲取網(wǎng)絡(luò)數(shù)據(jù) 106
5.4 爬蟲限制處理 107
5.4.1 解決IP限制問題 108
5.4.2 驗證碼處理 109
5.4.3 登錄問題處理 110
第6章 時間序列算法 111
6.1 時間序列算法概述 111
6.1.1 時序?qū)ο?113
6.1.2 時序平滑處理 113
6.1.3 時序季節(jié)性分解 116
6.2 時序指數(shù)模型 118
6.3 時序ARIMA模型 122
第7章 線性回歸算法 129
7.1 一元線性回歸模型 129
7.2 多項式回歸模型 131
7.3 多元線性回歸模型 133
第8章 分類算法 136
8.1 Logistic回歸 136
8.1.1 Logistic回歸算法原理 137
8.1.2 邏輯回歸算法應用 139
8.2 決策樹 143
8.2.1 決策樹算法原理 143
8.2.2 決策樹算法應用 147
8.3 支持向量機 150
8.3.1 支持向量機算法原理 151
8.3.2 支持向量機算法應用 155
8.4 樸素貝葉斯 157
8.4.1 貝葉斯定理 157
8.4.2 最大似然估計 157
8.4.3 樸素貝葉斯分類算法原理 158
8.4.4 樸素貝葉斯分類算法應用 159
8.5 人工神經(jīng)網(wǎng)絡(luò) 166
8.5.1 人工神經(jīng)網(wǎng)絡(luò)的基本概念 166
8.5.2 感知器和人工神經(jīng)元模型 167
8.5.3 前饋神經(jīng)網(wǎng)絡(luò) 168
8.5.4 人工神經(jīng)網(wǎng)絡(luò)算法應用 169
8.6 隨機森林 177
8.6.1 隨機森林算法原理 177
8.6.2 隨機森林算法應用 178
8.7 XGBoost算法 183
8.7.1 XGBoost算法的原理 184
8.7.2 XGBoost算法應用 187
第9章 關(guān)聯(lián)算法 189
9.1 關(guān)聯(lián)算法概述 189
9.1.1 相關(guān)名詞 190
9.1.2 關(guān)聯(lián)規(guī)則及頻繁項集的產(chǎn)生 190
9.2 Apriori算法 191
9.2.1 Apriori算法概述 191
9.2.2 先驗原理 191
9.2.3 連接步和剪枝步 192
9.2.4 Apriori算法流程 193
9.2.5 Apriori算法實例 193
9.3 ECLAT算法 196
9.3.1 ECLAT算法概述 196
9.3.2 ECLAT算法流程 198
9.3.3 ECLAT算法實例 198
第10章 聚類算法 202
10.1 聚類算法概述 202
10.1.1 聚類算法的類型 202
10.1.2 聚類算法評估的特點 202
10.2 K均值聚類算法 203
10.2.1 劃分方法概述 203
10.2.2 K均值聚類算法的優(yōu)缺點 203
10.2.3 K均值聚類算法的流程 203
10.2.4 K均值聚類分析案例 204
10.3 凝聚式層次聚類算法 205
10.3.1 凝聚式層次聚類概述 205
10.3.2 凝聚式層次聚類算法流程 207
10.3.3 凝聚式層次聚類算法實例 209
【應用案例1】景點輿情數(shù)據(jù)采集 211
【應用案例2】旅游電商平臺數(shù)據(jù)采集 218
【應用案例3】旅游網(wǎng)站景點路線推薦 233
【應用案例4】旅游城市和景點的負荷預測 236
【應用案例5】精品旅行服務(wù)成單預測 239
【應用案例6】航班延誤預測 259