本書是《對比Excel,輕松學生Python數(shù)據分析》姊妹篇,同樣采用對比的方法,降低學習門檻,提高學習效率。 全書分為三篇: 第一篇主要介紹數(shù)據分析基礎知識,包括數(shù)據分析的基本概念、為什么要進行數(shù)據分析以及常規(guī)的數(shù)據分析流程,使讀者對數(shù)據分析有一個整體的認識;第2篇圍繞數(shù)據分析的整個流程來介紹SQL語法相關的知識,包括如何選取一列數(shù)據,如何對數(shù)據進行分組運算,還包括窗口函數(shù)等進階知識;第3篇主要介紹SQL數(shù)據分析實戰(zhàn),都是一些比較常規(guī)的業(yè)務場景實戰(zhàn)。
張俊紅:某互聯(lián)網公司高級數(shù)據分析師,暢銷書《對比Excel,輕松學習Python數(shù)據分析》作者。喜歡分享,致力于做一個數(shù)據科學路上的終身學習者、實踐者、分享者。公眾號“俊紅的數(shù)據分析之路”運營人。
入門篇
第1章 數(shù)據分析基礎介紹 2
1.1 數(shù)據分析是什么 2
1.2 為什么要進行數(shù)據分析 2
1.2.1 現(xiàn)狀分析 3
1.2.2 原因分析 3
1.2.3 預測分析 4
1.3 數(shù)據分析究竟在分析什么 5
1.3.1 總體概覽指標 5
1.3.2 對比性指標 5
1.3.3 集中趨勢指標 6
1.3.4 離散程度指標 6
1.3.5 相關性指標 7
1.3.6 相關與因果 7
1.4 數(shù)據分析的常規(guī)分析流程7
1.4.1 熟悉工具8
1.4.2 明確目的 8
1.4.3 獲取數(shù)據 8
1.4.4 熟悉數(shù)據 8
1.4.5 處理數(shù)據 8
1.4.6 分析數(shù)據 9
1.4.7 得出結論 9
1.4.8 驗證結論 9
1.4.9 展現(xiàn)結論 9
1.5 數(shù)據分析工具 9
1.5.1 Excel 與SQL 9
1.5.2 SQL 與Python 10
知識篇
第2章 數(shù)據庫基礎知識 12
2.1 數(shù)據庫的發(fā)展及組成 12
2.1.1 數(shù)據庫的發(fā)展 12
2.1.2 數(shù)據庫的組成 . 13
2.2 SQL 是什么 . 13
2.3 SQL 的基本功能 . 14
2.3.1 數(shù)據定義 . 15
2.3.2 數(shù)據操縱 . 15
2.3.3 數(shù)據控制 . 15
2.4 SQL 查詢的處理步驟 . 15
2.4.1 查詢分析 . 15
2.4.2 查詢檢查 . 15
2.4.3 查詢優(yōu)化 . 16
2.4.4 查詢執(zhí)行 . 16
2.5 不同數(shù)據庫的比較 . 16
第3章 數(shù)據庫工具準備 17
3.1 認識MySQL 官方網站 17
3.2 MySQL 的下載與安裝 . 19
3.2.1 基于Windows 的下載與安裝 19
3.2.2 基于macOS 的下載與安裝 . 27
3.3 DBeaver 的下載與安裝 33
3.3.1 基于Windows 的下載與安裝 33
3.3.2 基于macOS 的下載與安裝 . 38
3.4 DBeaver 使用說明 42
3.4.1 新建表結構 . 42
3.4.2 導入外部數(shù)據 . 44
3.4.3 代碼執(zhí)行 . 46
3.4.4 導出結果數(shù)據 . 47
3.5 寫下第一行SQL 語句 49
第4章 數(shù)據源的獲取 50
4.1 外部數(shù)據 . 50
4.2 公司現(xiàn)有數(shù)據 . 50
4.3 新建數(shù)據 . 50
4.4 熟悉數(shù)據 . 50
4.4.1 了解數(shù)據庫信息 . 52
4.4.2 了解數(shù)據表信息 . 52
4.4.3 了解列信息 . 52
第5章 數(shù)據的獲取 54
5.1 獲取列 . 54
5.1.1 獲取全部列 . 55
5.1.2 獲取特定的列 . 55
5.2 獲取想要的行 . 56
5.2.1 獲取全部行 . 56
5.2.2 獲取前幾行 . 56
5.2.3 獲取滿足單一條件的行 . 57
5.2.4 獲取滿足多個條件的行 . 58
5.3 行列同時獲取 . 59
5.4 插入一列固定值 . 60
5.5 JSON 列解析 . 61
5.6 對結果進行排序 . 62
第6章 數(shù)據預處理 65
6.1 缺失值處理 . 65
6.2 重復值處理 . 68
6.3 數(shù)據類型轉換 . 70
6.4 重命名 . 72
第7章 數(shù)據運算 74
7.1 算術運算 . 74
7.2 比較運算 . 76
7.3 邏輯運算 . 78
7.4 數(shù)學運算 . 80
7.4.1 求絕對值 . 80
7.4.2 求最小整數(shù)值 . 81
7.4.3 求最大整數(shù)值 . 81
7.4.4 隨機數(shù)生成 . 81
7.4.5 小數(shù)點位數(shù)調整 . 83
7.4.6 正負判斷 . 83
7.5 字符串運算 . 84
7.5.1 字符串替換 . 84
7.5.2 字符串合并 . 85
7.5.3 字符串截取 . 86
7.5.4 字符串匹配 . 86
7.5.5 字符串計數(shù) . 87
7.5.6 去除字符串空格 . 88
7.5.7 字符串重復 . 89
7.6 聚合運算 . 89
7.6.1 count()計數(shù) . 89
7.6.2 sum()求和 90
7.6.3 avg()求平均值 90
7.6.4 max()求最大值 . 90
7.6.5 min()求最小值 91
7.6.6 求方差 . 91
7.6.7 求標準差 . 92
7.6.8 聚合函數(shù)之間的運算 . 92
第8章 控制函數(shù) 94
8.1 if()函數(shù) 94
8.2 case when 函數(shù) 96
第9章 日期和時間函數(shù) 99
9.1 獲取當前時刻的數(shù)據 . 99
9.1.1 獲取當前時刻的日期和時間 . 99
9.1.2 獲取當前時刻的日期 . 99
9.1.3 獲取當前時刻的時間 . 100
9.1.4 獲取當前時刻所屬的周數(shù) . 101
9.1.5 獲取當前時刻所屬的季度 . 102
9.2 日期和時間格式轉換 . 102
9.3 日期和時間運算 . 104
9.3.1 向后偏移日期和時間 . 104
9.3.2 向前偏移日期和時間 . 105
9.3.3 兩個日期之間做差 . 106
9.3.4 兩個日期之間的比較 . 107
第10章 數(shù)據分組與數(shù)據透視表 108
10.1 group by 的底層原理 108
10.2 對分組后的數(shù)據進行聚合運算 . 109
10.3 對聚合后的數(shù)據進行條件篩選 111
10.4 group_concat()函數(shù) 112
10.5 rollup. 113
10.6 數(shù)據透視表實現(xiàn) 115
第11章 窗口函數(shù) . 117
11.1 什么是窗口函數(shù) 117
11.2 聚合函數(shù)+over()函數(shù) 117
11.3 partition by 子句 . 118
11.4 order by 子句 . 120
11.5 序列函數(shù) . 121
11.5.1 ntile()函數(shù) . 121
11.5.2 row_number()函數(shù) 123
11.5.3 lag()和lead()函數(shù) . 124
11.5.4 first_value()和last_value()函數(shù) . 126
第12章 多表連接 127
12.1 表的橫向連接 . 127
12.1.1 表連接的方式 . 128
12.1.2 表連接的類型 . 132
12.1.3 多張表連接 . 134
12.2 表的縱向連接 . 135
12.3 橫向連接的底層原理 . 135
12.3.1 Simple Nested-Loop Join 136
12.3.2 Index Nested-Loop Join 136
12.3.3 Block Nested-Loop Join 137
第13章 子查詢 139
13.1 子查詢的概念 . 139
13.2 子查詢的分類 . 139
13.2.1 select 子查詢 . 140
13.2.2 from 子查詢 141
13.2.3 where 子查詢 142
13.3 with 建立臨時表 . 144
實戰(zhàn)篇
第14章 SQL中的其他話題 . 150
14.1 SQL 查詢的執(zhí)行順序. 150
14.2 變量設置 . 152
14.3 分區(qū)表 . 153
14.4 寬表與窄表 . 154
14.5 全量表,增量表,快照表,拉鏈表,流水表 . 154
14.6 數(shù)據回溯 . 156
14.7 數(shù)據倉庫的基本分層 . 157
14.8 SQL 語句的代碼規(guī)范157
14.9 如何快速梳理數(shù)據庫邏輯 159
14.10 如何快速讀懂別人的代碼 160
14.11 編輯器 161
14.11.1 軟件安裝 161
14.11.2 常用功能設置 162
14.11.3 常用快捷鍵 166
14.12 創(chuàng)建表 167
14.12.1 創(chuàng)建一張表 167
14.12.2 向表中插入數(shù)據 168
14.12.3 修改表中的數(shù)據169
14.12.4 刪除表 169
第15章 SQL 數(shù)據分析實戰(zhàn) 170
15.1 查詢每個區(qū)域的用戶數(shù) 170
15.2 查詢每個區(qū)域的男女用戶數(shù) 171
15.3 查詢姓張的用戶數(shù) 171
15.4 篩選出id3~id5 的用戶 172
15.5 篩選出績效不達標的員工 172
15.6 篩選出姓張的且績效不達標的員工 173
15.7 查詢獲得銷售冠軍超過兩次的人 174
15.8 查詢某部門一年的月銷售額最高漲幅 175
15.9 查詢每個季度績效得分大于70 分的員工 175
15.10 刪除重復值 176
15.11 行列互換 177
15.12 多列比較 178
15.13 對成績進行分組179
15.14 周累計數(shù)據獲取 180
15.15 周環(huán)比數(shù)據獲取 181
15.16 查詢獲獎員工信息 182
15.17 計算用戶留存情況 183
15.18 篩選最受歡迎的課程 185
15.19 篩選出每個年級最受歡迎的三門課程 186
15.20 求累積和 187
15.21 獲取新增用戶數(shù) 189
15.22 獲取用戶首次購買時間 190
15.23 同時獲取用戶和訂單數(shù)據 191
15.24 隨機抽樣 192
15.25 獲取沉默用戶數(shù) 193
15.26 獲取新用戶的訂單數(shù) 193
15.27 獲取借款到期名單 194
15.28 獲取即將到期的借款信息 195
15.29 獲取歷史逾期借款信息 196
15.30 綜合實戰(zhàn) 196
第16章 SQL中常見的報錯 198
16.1 DBeaver 相關報錯 198
16.1.1 時區(qū)錯誤 198
16.1.2 Public Key Retrieval 199
16.1.3 connect error 200
16.1.4 加密方式錯誤 201
16.2 MySQL 配置相關報錯 202
16.2.1 MySQL 安裝失敗 202
16.2.2 MySQL 客戶端閃退 206
16.2.3 訪問被拒絕 206
16.3 語法相關報錯 206
16.3.1 表名錯誤 206
16.3.2 列名錯誤 206
16.3.3 group by 錯誤 206
16.3.4 權限錯誤 207
16.3.5 逗號錯誤 207
16.3.6 括號錯誤 2