R語(yǔ)言統(tǒng)計(jì)分析與可視化從入門到精通
定 價(jià):119 元
- 作者:張良康 著
- 出版時(shí)間:2024/10/1
- ISBN:9787301354469
- 出 版 社:北京大學(xué)出版社
- 中圖法分類:C819
- 頁(yè)碼:464
- 紙張:
- 版次:1
- 開本:16開
本書循序漸進(jìn)、深入講解了R語(yǔ)言數(shù)據(jù)統(tǒng)計(jì)分析與應(yīng)用的核心知識(shí),并通過(guò)具體實(shí)例的實(shí)現(xiàn)過(guò)程演練了知識(shí)點(diǎn)的用法和流程。全書共16章,分別講解了R語(yǔ)言基礎(chǔ)、R語(yǔ)言數(shù)據(jù)統(tǒng)計(jì)語(yǔ)法基礎(chǔ)、數(shù)據(jù)獲取和處理、繪制可視化統(tǒng)計(jì)圖、描述性統(tǒng)計(jì)分析、探索性數(shù)據(jù)分析、推論統(tǒng)計(jì)、回歸分析、方差分析、非參數(shù)統(tǒng)計(jì)分析、主成分分析、聚類分析、生存分析、因子分析、基于機(jī)器學(xué)習(xí)的患者再入院預(yù)測(cè)分析系統(tǒng)和中概科技指數(shù)統(tǒng)計(jì)分析與投資系統(tǒng)。全書簡(jiǎn)潔而不失其技術(shù)深度,內(nèi)容豐富全面,歷史資料翔實(shí)齊全。同時(shí),本書易于閱讀,以極簡(jiǎn)的文字介紹了復(fù)雜的案例,同時(shí)涵蓋了其他同類圖書中很少涉及的歷史參考資料,是學(xué)習(xí)R語(yǔ)言數(shù)據(jù)統(tǒng)計(jì)分析與應(yīng)用的實(shí)用教程。
張良康
----------------------------
張良康,浙江大學(xué)統(tǒng)計(jì)學(xué)博士,現(xiàn)就職于恒瑞醫(yī)藥,負(fù)責(zé)醫(yī)藥臨床試驗(yàn)數(shù)據(jù)分析和統(tǒng)計(jì)工作,參與臨床試驗(yàn)方案設(shè)計(jì)溝通和討論,為臨床試驗(yàn)方案中的統(tǒng)計(jì)學(xué)相關(guān)內(nèi)容提供技術(shù)支持,包括研究設(shè)計(jì)方法的選擇、樣本量計(jì)算、隨機(jī)和盲法、統(tǒng)計(jì)方法的選擇等。使用R語(yǔ)言、SAS、SPSS等統(tǒng)計(jì)分析技術(shù)8年以上,擅長(zhǎng)數(shù)據(jù)挖掘、分析和統(tǒng)計(jì)工作。具有多年的數(shù)據(jù)統(tǒng)計(jì)分析經(jīng)驗(yàn),對(duì)商務(wù)數(shù)據(jù)、銷售數(shù)據(jù)、科研數(shù)據(jù)、醫(yī)學(xué)數(shù)據(jù)和金融數(shù)據(jù)的統(tǒng)計(jì)分析工作也頗有研究。
目 錄
第1章R語(yǔ)言基礎(chǔ)
1.1 R語(yǔ)言的發(fā)展歷程2
1.2 R 語(yǔ)言的特點(diǎn)2
1.3 獲取并安裝R語(yǔ)言運(yùn)行環(huán)境3
1.3.1 在Windows操作系統(tǒng)安裝R語(yǔ)言3
1.3.2 在Linux操作系統(tǒng)和macOS操作系統(tǒng)安裝R語(yǔ)言5
1.4 R語(yǔ)言開發(fā)工具:R GUI5
1.4.1 命令行方式運(yùn)行R語(yǔ)言程序6
1.4.2 文件方式運(yùn)行R語(yǔ)言程序6
1.5 R語(yǔ)言開發(fā)工具:RStudio7
1.5.1 安裝RStudio7
1.5.2 RStudio界面簡(jiǎn)介9
1.5.3 使用RStudio開發(fā)R語(yǔ)言程序10
1.6 認(rèn)識(shí)第一個(gè)R語(yǔ)言程序:簡(jiǎn)易數(shù)據(jù)統(tǒng)計(jì)與格式化輸出11
1.6.1 新建R語(yǔ)言工程11
1.6.2 編寫程序文件12
1.7 R語(yǔ)言和數(shù)據(jù)處理14
1.7.1 R語(yǔ)言的優(yōu)勢(shì)14
1.7.2 數(shù)據(jù)處理和數(shù)據(jù)分析的區(qū)別14
第2章R語(yǔ)言數(shù)據(jù)統(tǒng)計(jì)語(yǔ)法基礎(chǔ)
2.1 基本的內(nèi)置函數(shù)17
2.1.1 數(shù)學(xué)和統(tǒng)計(jì)函數(shù)17
2.1.2 字符和字符串處理函數(shù)19
2.1.3 文件操作函數(shù)21
2.1.4 概率分布函數(shù)25
2.1.5 日期函數(shù)和時(shí)間函數(shù)27
2.2 內(nèi)置數(shù)據(jù)處理函數(shù)33
2.2.1 查看、篩選和編輯數(shù)據(jù)33
2.2.2 合并數(shù)據(jù)35
2.2.3 分組和匯總38
2.2.4 排序40
2.2.5 轉(zhuǎn)換42
2.3 apply函數(shù)族43
2.3.1 apply函數(shù)族中的函數(shù)43
2.3.2 函數(shù)apply()44
2.3.3 函數(shù)lapply()45
2.3.4 函數(shù)sapply()46
2.3.5 函數(shù)vapply()47
2.3.6 函數(shù)mapply()49
2.4 數(shù)據(jù)重塑與變形50
2.5 數(shù)據(jù)查詢與過(guò)濾51
2.5.1 使用dplyr包進(jìn)行數(shù)據(jù)查詢和過(guò)濾52
2.5.2 使用sqldf包進(jìn)行SQL風(fēng)格的查詢53
第3章數(shù)據(jù)獲取和處理
3.1 數(shù)據(jù)獲取和處理簡(jiǎn)介56
3.2 使用鍵盤輸入數(shù)據(jù)57
3.3 處理CSV數(shù)據(jù)58
3.3.1 讀取CSV文件59
3.3.2 寫入CSV文件60
3.3.3 數(shù)據(jù)轉(zhuǎn)換和處理61
3.4 處理Excel數(shù)據(jù)64
3.4.1 R語(yǔ)言和Excel文件64
3.4.2 使用readxl包64
3.4.3 使用openxlsx包66
3.5 處理XML數(shù)據(jù)67
3.5.1 使用XML包68
3.5.2 使用xml2包 70
3.6 處理JSON數(shù)據(jù)72
3.6.1 JSON包72
3.6.2 使用jsonlite包73
3.6.3 使用RJSONIO包75
3.6.4 使用tidyjson包76
3.7 處理MySQL數(shù)據(jù)78
3.7.1 和MySQL相關(guān)的包78
3.7.2 使用RMySQL包78
3.7.3 使用RMariaDB包80
3.7.4 使用DBI包81
3.7.5 dplyr包和dbplyr包82
3.8 從網(wǎng)頁(yè)抓取數(shù)據(jù)84
3.8.1 使用rvest包抓取數(shù)據(jù)84
3.8.2 使用httr包抓取數(shù)據(jù)85
3.8.3 使用XML包抓取數(shù)據(jù)87
3.8.4 使用jsonlite包抓取數(shù)據(jù)88
3.9 數(shù)據(jù)準(zhǔn)備與清洗88
3.9.1 缺失數(shù)據(jù)處理89
3.9.2 異常值檢測(cè)和處理91
3.9.3 異常值檢測(cè)方法小結(jié)93
第4章繪制可視化統(tǒng)計(jì)圖
4.1 R語(yǔ)言繪圖系統(tǒng)簡(jiǎn)介97
4.1.1 常用的繪圖包97
4.1.2 基本繪圖函數(shù)plot()97
4.2 單變量繪圖99
4.2.1 繪制直方圖99
4.2.2 繪制條形圖102
4.2.3 繪制餅形圖106
4.2.4 繪制箱線圖107
4.2.5 繪制密度圖109
4.3 雙變量繪圖112
4.3.1 繪制雙變量條形圖112
4.3.2 繪制散點(diǎn)圖116
4.3.3 繪制折線圖118
4.3.4 繪制箱線圖(雙變量)120
4.4 繪制多變量圖122
4.4.1 繪制氣泡圖123
4.4.2 繪制熱力圖125
4.5 文件數(shù)據(jù)的可視化128
4.5.1 CSV文件數(shù)據(jù)的可視化128
4.5.2 Excel文件數(shù)據(jù)的可視化130
4.5.3 XML文件數(shù)據(jù)的可視化131
4.5.4 JSON文件數(shù)據(jù)的可視化132
4.5.5 MySQL數(shù)據(jù)庫(kù)數(shù)據(jù)的可視化134
第5章描述性統(tǒng)計(jì)分析
5.1 描述性統(tǒng)計(jì)分析簡(jiǎn)介137
5.2 平均數(shù)、中位數(shù)和眾數(shù)137
5.2.1 計(jì)算平均數(shù)138
5.2.2 計(jì)算中位數(shù)140
5.2.3 計(jì)算眾數(shù)142
5.3 方差和標(biāo)準(zhǔn)差143
5.3.1 計(jì)算方差144
5.3.2 計(jì)算標(biāo)準(zhǔn)差145
5.4 百分位數(shù)147
5.4.1 常見的百分位數(shù)147
5.4.2 計(jì)算百分位數(shù)148
第6章探索性數(shù)據(jù)分析
6.1 EDA簡(jiǎn)介151
6.2 檢測(cè)重復(fù)值151
6.2.1 檢測(cè)重復(fù)值簡(jiǎn)介151
6.2.2 R語(yǔ)言檢測(cè)重復(fù)值的方法152
6.3 數(shù)據(jù)可視化方法155
6.4 相關(guān)性分析162
6.4.1 相關(guān)性分析的基本信息162
6.4.2 皮爾遜相關(guān)系數(shù)163
6.4.3 斯皮爾曼相關(guān)系數(shù)165
6.4.4 肯德爾相關(guān)系數(shù)166
第7章 推論統(tǒng)計(jì)
7.1 抽樣和抽樣分布169
7.2 置信區(qū)間169
7.2.1 置信區(qū)間的概念169
7.2.2 總體均值的置信區(qū)間170
7.2.3 總體比例的置信區(qū)間173
7.2.4 總體方差的置信區(qū)間176
7.3 假設(shè)檢驗(yàn)177
7.3.1 假設(shè)檢驗(yàn)的基本步驟178
7.3.2 假設(shè)檢驗(yàn)中的錯(cuò)誤類型179
7.4 抽樣方法181
7.4.1 隨機(jī)抽樣181
7.4.2 系統(tǒng)抽樣183
7.4.3 分層抽樣184
7.4.4 多階段抽樣185
7.5 推論統(tǒng)計(jì)的方向小結(jié)185
7.5.1 參數(shù)推斷185
7.5.2 非參數(shù)推斷186
第8章 回歸分析
8.1 回歸分析簡(jiǎn)介189
8.2 線性回歸和多元線性回歸189
8.2.1 線性回歸189
8.2.2 多元線性回歸194
8.3 邏輯回歸197
8.3.1 邏輯回歸簡(jiǎn)介197
8.3.2 邏輯回歸的應(yīng)用領(lǐng)域197
8.3.3 使用邏輯回歸模型198
8.4 非線性回歸201
8.4.1 非線性回歸簡(jiǎn)介201
8.4.2 使用非線性回歸模型202
8.5 條件回歸203
8.5.1 條件回歸簡(jiǎn)介203
8.5.2 使用條件回歸模型204
第9章 方差分析
9.1 方差分析簡(jiǎn)介207
9.2 單因素方差分析208
9.2.1 單因素方差分析的步驟208
9.2.2 單因素方差分析的應(yīng)用209
9.3 多因素方差分析212
9.3.1 多因素方差分析簡(jiǎn)介212
9.3.2 兩因素方差分析213
9.3.3 多因素方差分析216
9.4 協(xié)方差分析218
9.4.1 協(xié)方差分析方法簡(jiǎn)介218
9.4.2 協(xié)方差分析的應(yīng)用218
第10章 非參數(shù)統(tǒng)計(jì)分析
10.1 非參數(shù)統(tǒng)計(jì)的方法233
10.2 秩和檢驗(yàn)233
10.2.1 秩和檢驗(yàn)簡(jiǎn)介233
10.2.2 使用秩和檢驗(yàn)234
10.3 Wilcoxon符號(hào)秩檢驗(yàn)236
10.3.1 Wilcoxon符號(hào)秩檢驗(yàn)簡(jiǎn)介236
10.3.2 使用Wilcoxon符號(hào)秩檢驗(yàn)236
10.4 Kruskal-Wallis檢驗(yàn)239
10.4.1 Kruskal-Wallis檢驗(yàn)簡(jiǎn)介240
10.4.2 使用Kruskal-Wallis檢驗(yàn)240
10.5 Friedman檢驗(yàn)247
10.5.1 Friedman檢驗(yàn)簡(jiǎn)介248
10.5.2 使用Friedman檢驗(yàn)248
10.6 卡方檢驗(yàn)250
10.6.1 卡方檢驗(yàn)簡(jiǎn)介250
10.6.2 卡方擬合度檢驗(yàn)251
10.6.3 卡方獨(dú)立性檢驗(yàn)252
10.7 符號(hào)檢驗(yàn)254
10.7.1 符號(hào)檢驗(yàn)簡(jiǎn)介254
10.7.2 使用符號(hào)檢驗(yàn)254
第11章 主成分分析
11.1 PCA簡(jiǎn)介257
11.1.1 PCA的概念257
11.1.2 PCA的應(yīng)用領(lǐng)域257
11.2 PCA的數(shù)學(xué)原理258
11.2.1 主成分的提取258
11.2.2 PCA的可解釋性259
11.3 PCA的應(yīng)用:信用卡欺詐檢測(cè)260
11.3.1 準(zhǔn)備R語(yǔ)言包260
11.3.2 導(dǎo)入數(shù)據(jù)集261
11.3.3 計(jì)算ROC和AUC262
11.3.4 可視化處理263
11.3.5 顯示混淆矩陣265
11.3.6 探索數(shù)據(jù)265
11.3.7 相關(guān)性分析267
11.3.8 使用隨機(jī)森林模型268
11.3.9 欺詐預(yù)測(cè)270
11.3.10 結(jié)論272
第12章 聚類分析
12.1 聚類分析簡(jiǎn)介274
12.1.1 聚類分析的基本概念274
12.1.2 聚類分析的方法274
12.1.3 聚類分析的應(yīng)用領(lǐng)域275
12.2 K均值聚類276
12.2.1 K均值聚類簡(jiǎn)介276
12.2.2 K均值聚類的應(yīng)用277
12.3 層次聚類280
12.3.1 層次聚類簡(jiǎn)介280
12.3.2 層次聚類的應(yīng)用281
12.4 DBSCAN聚類285
12.4.1 DBSCAN簡(jiǎn)介285
12.4.2 DBSCAN的應(yīng)用領(lǐng)域286
12.4.3 使用DBSCAN聚類算法286
12.5 高斯混合模型聚類289
12.5.1 高斯混合模型聚類簡(jiǎn)介289
12.5.2 高斯混合模型聚類的應(yīng)用289
12.6 譜聚類295
12.6.1 譜聚類簡(jiǎn)介295
12.6.2 譜聚類的應(yīng)用295
第13章 生存分析
13.1 生存分析簡(jiǎn)介299
13.1.1 生存分析的基本概念299
13.1.2 生存分析的應(yīng)用領(lǐng)域300
13.1.3 用R語(yǔ)言實(shí)現(xiàn)生存分析300
13.2 Kaplan-Meier生存曲線302
13.2.1 Kaplan-Meier生存曲線的解釋303
13.2.2 Kaplan-Meier生存曲線的構(gòu)建303
13.3 Cox比例風(fēng)險(xiǎn)模型307
13.3.1 Cox比例風(fēng)險(xiǎn)模型簡(jiǎn)介307
13.3.2 Cox比例風(fēng)險(xiǎn)模型的應(yīng)用307
13.4 心血管疾病的生存分析實(shí)戰(zhàn)309
13.4.1 數(shù)據(jù)集簡(jiǎn)介309
13.4.2 數(shù)據(jù)預(yù)處理310
13.4.3 二元變量分布315
13.4.4 連續(xù)變量分布317
13.4.5 死亡事件計(jì)數(shù)與生存時(shí)間324
13.4.6 相關(guān)性分析328
13.4.7 變量選擇的機(jī)器學(xué)習(xí)模型331
13.4.8 生存分析337
13.4.9 總結(jié)343
第14章 因子分析
14.1 因子分析簡(jiǎn)介345
14.1.1 因子分析的基本概念345
14.1.2 因子分析的應(yīng)用領(lǐng)域346
14.2 因子分析方法346
14.2.1 常用的因子分析方法346
14.2.2 最大似然估計(jì)法347
14.2.3 最小二乘法349
14.2.4 廣義最小二乘法351
14.2.5 主軸因子分析353
14.2.6 因子旋轉(zhuǎn)355
14.2.7 因子得分估計(jì)357
14.3 因子分析的應(yīng)用:心血管疾病風(fēng)險(xiǎn)因素分析系統(tǒng)358
14.3.1 設(shè)置環(huán)境358
14.3.2 數(shù)據(jù)準(zhǔn)備和探索359
14.3.3 相關(guān)性分析362
14.3.4 總結(jié)371
第15章 基于機(jī)器學(xué)習(xí)的患者再入院預(yù)測(cè)分析系統(tǒng)
15.1 背景簡(jiǎn)介373
15.2 需求分析373
15.3 系統(tǒng)分析374
15.4 系統(tǒng)簡(jiǎn)介375
15.4.1 系統(tǒng)功能簡(jiǎn)介375
15.4.2 系統(tǒng)模塊結(jié)構(gòu)375
15.5 技術(shù)分析376
15.5.1 dplyr:數(shù)據(jù)預(yù)處理376
15.5.2 psych:心理學(xué)和社會(huì)科學(xué)研究376
15.5.3 ROSE:不平衡處理377
15.5.4 caret模型訓(xùn)練和評(píng)估377
15.6 數(shù)據(jù)處理378
15.6.1 導(dǎo)入數(shù)據(jù)集378
15.6.2 數(shù)據(jù)預(yù)處理380
15.7 第一方案389
15.7.1 劃分訓(xùn)練集和測(cè)試集390
15.7.2 數(shù)據(jù)集平衡390
15.7.3 交叉驗(yàn)證391
15.7.4 模型比較394
15.8 第二方案396
15.8.1 數(shù)據(jù)集拆分和數(shù)據(jù)平衡396
15.8.2 邏輯回歸模型擬合和預(yù)測(cè)397
15.8.3 計(jì)算處理397
15.8.4 邏輯回歸模型的擬合、預(yù)測(cè)和評(píng)估398
15.8.5 使用交叉驗(yàn)證方法訓(xùn)練決策樹模型399
15.8.6 使用交叉驗(yàn)證方法訓(xùn)練隨機(jī)森林模型400
15.8.7 實(shí)現(xiàn)樸素貝葉斯模型401
15.9 模型訓(xùn)練和評(píng)估402
15.9.1 數(shù)據(jù)預(yù)處理402
15.9.2 邏輯回歸模型的訓(xùn)練和評(píng)估403
15.9.3 決策樹模型的訓(xùn)練和評(píng)估404
15.9.4 隨機(jī)森林模型的訓(xùn)練和評(píng)估404
15.9.5 樸素貝葉斯模型的訓(xùn)練和評(píng)估405
15.10 結(jié)論406
第16章 中概科技指數(shù)統(tǒng)計(jì)分析與投資系統(tǒng)
16.1 背景簡(jiǎn)介409
16.2 需求分析409
16.3 系統(tǒng)分析410
16.3.1 系統(tǒng)目標(biāo)410
16.3.2 系統(tǒng)模塊410
16.3.3 數(shù)據(jù)處理流程411
16.4 技術(shù)棧411
16.4.1 Tidyquant:財(cái)務(wù)數(shù)據(jù)分析411
16.4.2 Tidyverse:數(shù)據(jù)處理工具412
16.4.3 Loess平滑算法:非參數(shù)統(tǒng)計(jì)方法412
16.5 數(shù)據(jù)處理412
16.6 中概股技術(shù)分析413
16.6.1 股票價(jià)格和收益分析413
16.6.2 配對(duì)分析統(tǒng)計(jì)圖420
16.6.3 MACD技術(shù)分析統(tǒng)計(jì)圖422
16.6.4 OBV技術(shù)分析統(tǒng)計(jì)圖424
16.6.5 CCI技術(shù)分析統(tǒng)計(jì)圖430
16.6.6 Chaikin AD Line技術(shù)分析統(tǒng)計(jì)圖436
16.6.7 相對(duì)表現(xiàn)比率統(tǒng)計(jì)圖437
16.6.8 RSI技術(shù)分析統(tǒng)計(jì)圖439
16.6.9 交易差價(jià)技術(shù)分析統(tǒng)計(jì)圖444
16.6.10 CCI密度圖446
16.6.11 自定義指數(shù)技術(shù)分析統(tǒng)計(jì)圖448