Python數(shù)據(jù)分析與應用(第2版)(微課版)
本書以任務為導向,全面地介紹數(shù)據(jù)分析的流程和Python數(shù)據(jù)分析庫的應用,詳細講解利用Python解決企業(yè)實際問題的方法。全書共10章,第1章介紹數(shù)據(jù)分析的概念等相關(guān)知識;第2~6章介紹Python數(shù)據(jù)分析的常用庫及其應用,涵蓋NumPy數(shù)組計算,pandas統(tǒng)計分析,使用pandas進行數(shù)據(jù)預處理,Matplotlib、seaborn與pyecharts數(shù)據(jù)可視化,以及使用scikit-learn構(gòu)建模型,較為全面地闡述Python數(shù)據(jù)分析方法;第7~9章結(jié)合之前所學的數(shù)據(jù)分析技術(shù),進行企業(yè)綜合案例數(shù)據(jù)分析;第10章基于去編程化的TipDM大數(shù)據(jù)挖掘建模平臺實現(xiàn)客戶流失預測。除第1章外,本書各章都包含實訓與課后習題,通過練習和操作實踐,幫助讀者鞏固所學的內(nèi)容。
本書可以用于“1+X”證書制度試點工作中的大數(shù)據(jù)應用開發(fā)(Python)職業(yè)技能等級(中級)證書相關(guān)知識的教學和培訓,也可以作為高校大數(shù)據(jù)技術(shù)相關(guān)專業(yè)的教材和大數(shù)據(jù)技術(shù)愛好者的自學用書。
1. 全書緊扣任務需求展開,不堆積知識點
2. 隨書附帶Python源碼,微課視頻,方便讀者系統(tǒng)學習并動手實踐
3. 實戰(zhàn)案例豐富
4. “1+X”大數(shù)據(jù)應用開發(fā)(Python)職業(yè)技能等級證書(中級)配套教材
曾文權(quán),廣東科學技術(shù)職業(yè)學院計算機學院院長、教授,教育部計算機職業(yè)教育教學指導委員會委員、中國計算機學會職業(yè)教育發(fā)展委員會副主席、國家課程思政教學名師、國家軟件技術(shù)高水平專業(yè)群建設負責人、國家教學創(chuàng)新團隊帶頭人、廣東省千百十人才工程省級培養(yǎng)對象、廣東省移動應用開發(fā)專業(yè)領(lǐng)軍人才;獲國家教學成果獎1項、省級教學成果獎3項;主持國家和省級教科研項目20余項、主編出版專著1部、教材8部,發(fā)表論文30余篇。
張良均
資深大數(shù)據(jù)專家,廣東泰迪智能科技股份有限公司董事長,國家科技部入庫技術(shù)專家,教育部全國專業(yè)學位水平評估專家,工信部教育與考試中心入庫專家,中國工業(yè)與應用數(shù)學學會理事,廣東省工業(yè)與應用數(shù)學學會副理事長,廣東省高等職業(yè)教育教學指導委員會委員,華南師范大學、中南財經(jīng)政法大學等40余所高校校外碩導或兼職教授,泰迪杯全國數(shù)據(jù)挖掘挑戰(zhàn)賽發(fā)起人。
曾在國內(nèi)外重要學術(shù)刊物上發(fā)表學術(shù)論文10余篇,主導編寫圖書專著60余部,其中獲普通高等教育“十一五”規(guī)劃教材一部,“十三五”職業(yè)教育國家規(guī)劃教材一部;參與標準建設4項,主持國家級課題1項、省部級課題4項。獲得SAS、SPSS數(shù)據(jù)挖掘認證及Hadoop開發(fā)工程師證書,具有信訪、電力、電信、銀行、制造企業(yè)、電子商務和電子政務的項目經(jīng)驗和行業(yè)背景,并榮獲中國產(chǎn)學研合作促進獎
第 1章 Python數(shù)據(jù)分析概述 1
任務1.1 認識數(shù)據(jù)分析 2
1.1.1 掌握數(shù)據(jù)分析的概念 2
1.1.2 掌握數(shù)據(jù)分析的流程 3
1.1.3 了解數(shù)據(jù)分析的應用場景 4
任務1.2 熟悉Python數(shù)據(jù)分析的工具 6
1.2.1 了解數(shù)據(jù)分析常用工具 6
1.2.2 了解Python數(shù)據(jù)分析的優(yōu)勢 7
1.2.3 了解Python數(shù)據(jù)分析常用庫 7
任務1.3 安裝Python的Anaconda發(fā)行版 9
1.3.1 了解Python的Anaconda發(fā)行版 10
1.3.2 在Windows系統(tǒng)中安裝Anaconda發(fā)行版 10
1.3.3 在Linux系統(tǒng)中安裝Anaconda發(fā)行版 13
任務1.4 掌握Jupyter Notebook常用功能 15
1.4.1 掌握Jupyter Notebook的基本功能 15
1.4.2 掌握Jupyter Notebook的高級功能 17
小結(jié) 20
課后習題 21
第 2章 NumPy數(shù)組計算基礎(chǔ) 23
任務2.1 掌握NumPy數(shù)組對象ndarray 24
2.1.1 創(chuàng)建數(shù)組對象 24
2.1.2 生成隨機數(shù) 30
2.1.3 通過索引訪問數(shù)組 31
2.1.4 變換數(shù)組的形狀 33
任務2.2 掌握NumPy矩陣與通用函數(shù) 37
2.2.1 創(chuàng)建NumPy矩陣 37
2.2.2 掌握ufunc函數(shù) 39
任務2.3 利用NumPy進行統(tǒng)計分析 43
2.3.1 讀/寫文件 43
2.3.2 使用函數(shù)進行簡單的統(tǒng)計分析 45
小結(jié) 50
實訓 50
實訓1 使用數(shù)組比較運算對超市牛奶價格進行對比 50
實訓2 創(chuàng)建6×6的簡單數(shù)獨游戲矩陣 51
課后習題 51
第3章 pandas統(tǒng)計分析基礎(chǔ) 53
任務3.1 讀/寫不同數(shù)據(jù)源的數(shù)據(jù) 54
3.1.1 認識pandas庫 54
3.1.2 讀/寫文本文件 54
3.1.3 讀/寫Excel文件 58
3.1.4 讀/寫數(shù)據(jù)庫 60
任務3.2 掌握DataFrame的常用操作 62
3.2.1 查看DataFrame的常用屬性 63
3.2.2 查、改、增、刪DataFrame數(shù)據(jù) 64
3.2.3 描述分析DataFrame數(shù)據(jù) 70
任務3.3 轉(zhuǎn)換與處理時間序列數(shù)據(jù) 73
3.3.1 轉(zhuǎn)換時間字符串為標準時間 73
3.3.2 提取時間序列數(shù)據(jù)信息 75
3.3.3 加減時間數(shù)據(jù) 76
任務3.4 使用分組聚合進行組內(nèi)計算 78
3.4.1 使用groupby()方法拆分數(shù)據(jù) 78
3.4.2 使用agg()方法聚合數(shù)據(jù) 80
3.4.3 使用apply()方法聚合數(shù)據(jù) 82
3.4.4 使用transform()方法聚合數(shù)據(jù) 83
任務3.5 創(chuàng)建透視表與交叉表 84
3.5.1 使用pivot_table函數(shù)創(chuàng)建透視表 85
3.5.2 使用crosstab函數(shù)創(chuàng)建交叉表 87
小結(jié) 88
實訓 89
實訓1 讀取并查看某地區(qū)房屋銷售數(shù)據(jù)的基本信息 89
實訓2 提取房屋售出時間信息并描述房屋價格信息 89
實訓3 使用分組聚合方法分析房屋銷售情況 90
實訓4 分析房屋地區(qū)、配套房間數(shù)和房屋價格的關(guān)系 90
課后習題 91
第4章 使用pandas進行數(shù)據(jù)預處理 93
任務4.1 合并數(shù)據(jù) 93
4.1.1 堆疊合并數(shù)據(jù) 94
4.1.2 主鍵合并數(shù)據(jù) 97
4.1.3 重疊合并數(shù)據(jù) 99
任務4.2 清洗數(shù)據(jù) 100
4.2.1 檢測與處理重復值 100
4.2.2 檢測與處理缺失值 104
4.2.3 檢測與處理異常值 108
任務4.3 標準化數(shù)據(jù) 110
4.3.1 離差標準化數(shù)據(jù) 110
4.3.2 標準差標準化數(shù)據(jù) 111
4.3.3 小數(shù)定標標準化數(shù)據(jù) 111
任務4.4 變換數(shù)據(jù) 112
4.4.1 啞變量處理類別型數(shù)據(jù) 112
4.4.2 離散化連續(xù)型數(shù)據(jù) 114
小結(jié) 117
實訓 117
實訓1 合并年齡、平均血糖和中風患者信息數(shù)據(jù) 117
實訓2 刪除年齡異常的數(shù)據(jù) 118
實訓3 離散化年齡特征 118
課后習題 119
第5章 Matplotlib、seaborn、pyecharts數(shù)據(jù)可視化基礎(chǔ) 121
任務5.1 掌握Matplotlib基礎(chǔ)繪圖 122
5.1.1 熟悉pyplot繪圖基礎(chǔ)語法與常用參數(shù) 122
5.1.2 使用Matplotlib繪制進階圖形 128
任務5.2 掌握seaborn基礎(chǔ)繪圖 137
5.2.1 熟悉seaborn繪圖基礎(chǔ) 137
5.2.2 使用seaborn繪制基礎(chǔ)圖形 153
任務5.3 掌握pyecharts基礎(chǔ)繪圖 162
5.3.1 熟悉pyecharts繪圖基礎(chǔ) 162
5.3.2 使用pyecharts繪制交互式圖形 166
小結(jié) 171
實訓 172
實訓1 分析學生考試成績特征的分布與分散情況 172
實訓2 分析學生考試成績與各個特征之間的關(guān)系 172
實訓3 分析各空氣質(zhì)量指數(shù)之間的相關(guān)關(guān)系 173
實訓4 繪制交互式基礎(chǔ)圖形 174
課后習題 174
第6章 使用scikit-learn構(gòu)建模型 177
任務6.1 使用sklearn轉(zhuǎn)換器處理數(shù)據(jù) 178
6.1.1 加載datasets模塊中的數(shù)據(jù)集 178
6.1.2 將數(shù)據(jù)集劃分為訓練集和測試集 180
6.1.3 使用sklearn轉(zhuǎn)換器進行數(shù)據(jù)預處理 182
任務6.2 構(gòu)建并評價聚類模型 184
6.2.1 使用sklearn估計器構(gòu)建聚類模型 185
6.2.2 評價聚類模型 187
任務6.3 構(gòu)建并評價分類模型 189
6.3.1 使用sklearn估計器構(gòu)建分類模型 190
6.3.2 評價分類模型 192
任務6.4 構(gòu)建并評價回歸模型 194
6.4.1 使用sklearn估計器構(gòu)建線性回歸模型 194
6.4.2 評價回歸模型 197
小結(jié) 198
實訓 198
實訓1 使用sklearn處理競標行為數(shù)據(jù)集 198
實訓2 構(gòu)建基于競標行為數(shù)據(jù)集的K-Means聚類模型 199
實訓3 構(gòu)建基于競標行為數(shù)據(jù)集的支持向量機分類模型 200
實訓4 構(gòu)建基于競標行為數(shù)據(jù)集的回歸模型 200
課后習題 200
第7章 競賽網(wǎng)站用戶行為分析 202
任務7.1 了解競賽網(wǎng)站用戶行為分析的背景和方法 203
7.1.1 了解競賽網(wǎng)站背景 203
7.1.2 認識用戶行為分析 204
7.1.3 熟悉競賽網(wǎng)站用戶行為分析的步驟與流程 204
任務7.2 預處理競賽網(wǎng)站用戶訪問數(shù)據(jù) 205
7.2.1 特征值變換 205
7.2.2 用戶識別 207
7.2.3 數(shù)據(jù)清洗 208
7.2.4 網(wǎng)頁分類 211
7.2.5 構(gòu)造特征 213
任務7.3 對競賽網(wǎng)站用戶進行分群 214
7.3.1 了解K-Means聚類算法 214
7.3.2 使用K-Means聚類算法進行用戶分群 215
7.3.3 模型應用 217
小結(jié) 218
實訓 218
實訓1 處理某App用戶信息數(shù)據(jù)集 218
實訓2 構(gòu)建與用戶使用信息相關(guān)的 特征 219
實訓3 構(gòu)建K-Means聚類模型 219
課后習題 219
第8章 企業(yè)所得稅預測分析 221
任務8.1 了解企業(yè)所得稅預測的背景與方法 222
8.1.1 分析企業(yè)所得稅預測背景 222
8.1.2 了解企業(yè)所得稅預測的方法 223
8.1.3 熟悉企業(yè)所得稅預測的步驟與流程 224
任務8.2 分析企業(yè)所得稅數(shù)據(jù)特征的相關(guān)性 224
8.2.1 了解相關(guān)性分析 225
8.2.2 計算Pearson相關(guān)系數(shù) 225
任務8.3 使用Lasso回歸選取企業(yè)所得稅預測的關(guān)鍵特征 227
8.3.1 了解Lasso回歸方法 227
8.3.2 選取關(guān)鍵特征 228
任務8.4 使用灰色預測算法和SVR算法構(gòu)建企業(yè)所得稅預測模型 229
8.4.1 了解灰色預測算法 230
8.4.2 了解SVR算法 231
8.4.3 預測企業(yè)所得稅 232
小結(jié) 236
實訓 236
實訓1 處理英雄聯(lián)盟游戲數(shù)據(jù)集 236
實訓2 構(gòu)建游戲勝負預測關(guān)鍵特征 237
實訓3 構(gòu)建SVR模型 238
課后習題 238
第9章 餐飲企業(yè)客戶流失預測 240
任務9.1 了解餐飲企業(yè)客戶分析需求 241
9.1.1 了解餐飲企業(yè)客戶流失預測背景 241
9.1.2 認識餐飲企業(yè)客戶流失預測 243
9.1.3 熟悉餐飲企業(yè)客戶流失預測的步驟與流程 243
任務9.2 預處理餐飲企業(yè)數(shù)據(jù) 244
9.2.1 數(shù)據(jù)探索 244
9.2.2 查看重復值 246
9.2.3 處理異常值 246
9.2.4 處理缺失值 247
9.2.5 構(gòu)建客戶流失特征 248
任務9.3 使用決策樹算法和支持向量機算法進行餐飲企業(yè)客戶流失預測 250
9.3.1 了解決策樹算法 250
9.3.2 了解支持向量機算法 252
9.3.3 預測餐飲企業(yè)客戶流失 253
小結(jié) 255
實訓 256
實訓1 預處理尺碼信息數(shù)據(jù) 256
實訓2 構(gòu)建支持向量機分類模型預測客戶
服裝尺寸 256
課后習題 257
第 10章 基于TipDM大數(shù)據(jù)挖掘建模平臺實現(xiàn)客戶流失預測 259
任務10.1 了解平臺的相關(guān)概念、特點和功能 260
10.1.1 了解平臺的界面、訪問方式和特點 260
10.1.2 了解“實訓庫”模塊的功能 261
10.1.3 了解“數(shù)據(jù)連接”模塊的功能 261
10.1.4 了解“實訓數(shù)據(jù)”模塊的功能 262
10.1.5 了解“我的實訓”模塊的功能 262
10.1.6 了解“系統(tǒng)算法”模塊的功能 263
10.1.7 了解“個人算法”模塊的功能 265
任務10.2 使用平臺實現(xiàn)客戶流失預測 265
10.2.1 掌握使用平臺配置客戶流失預測案例的步驟和流程 265
10.2.2 數(shù)據(jù)源配置 266
10.2.3 數(shù)據(jù)預處理 268
10.2.4 構(gòu)建模型 273
小結(jié) 275
實訓 275
實訓 預測客戶服裝尺寸 275
課后習題 276