Python大數(shù)據(jù)應(yīng)用基礎(chǔ)
本書內(nèi)容由淺入深,實(shí)例指導(dǎo)性強(qiáng),通過大量的實(shí)例講述Python程序設(shè)計(jì)基礎(chǔ),同時(shí)結(jié)合Python語(yǔ)言的特性,講解各類基于Python的大數(shù)據(jù)應(yīng)用實(shí)例。本書全部例題代碼適用于Python3.6及更高版本。
全書共13章,主要內(nèi)容包括大數(shù)據(jù)及Python概述,Python基礎(chǔ)知識(shí)、程序流程控制結(jié)構(gòu)、常用組合數(shù)據(jù)類型、函數(shù)與模塊、面向?qū)ο蟪绦蛟O(shè)計(jì)、文件相關(guān)操作、數(shù)據(jù)預(yù)處理和數(shù)據(jù)分析、使用NumPy進(jìn)行處理數(shù)據(jù)分析、使用Pandas處理結(jié)構(gòu)化數(shù)據(jù)、使用NumPy和Pandas進(jìn)行數(shù)據(jù)預(yù)處理、使用scikit-learn進(jìn)行機(jī)器學(xué)習(xí),以及綜合案例。
本書適合作為普通高等院校非計(jì)算機(jī)專業(yè)大數(shù)據(jù)相關(guān)課程的教材,也可以作為職業(yè)培訓(xùn)教育及相關(guān)技術(shù)人員的參考用書。
案例實(shí)用,內(nèi)容全面--本書采用目前大數(shù)據(jù)領(lǐng)域的熱門軟件Python編寫,結(jié)合python語(yǔ)言的特性,全面講解大數(shù)據(jù)相關(guān)的數(shù)據(jù)處理和數(shù)據(jù)挖掘的相關(guān)知識(shí)。內(nèi)容從基礎(chǔ)理論到實(shí)踐應(yīng)用,由淺入深、循序漸進(jìn),并配以大量的圖例和實(shí)例講解,能夠使讀者快速地了解和掌握大數(shù)據(jù)原理及應(yīng)用案例。
涵蓋實(shí)驗(yàn)教學(xué)內(nèi)容--本書還將實(shí)驗(yàn)環(huán)節(jié)及實(shí)操內(nèi)容融入到各個(gè)知識(shí)點(diǎn)與課程教學(xué)中,滿足該課程對(duì)實(shí)踐教學(xué)的需求。
配套資源豐富--本書還配套豐富的教學(xué)資源與學(xué)習(xí)資源,包括教案、課件、數(shù)據(jù)源的教學(xué)輔助資源,后續(xù)還將提供課程的教學(xué)視頻的學(xué)習(xí)資源。
呂會(huì)紅 廣東外語(yǔ)外貿(mào)大學(xué)信息學(xué)院實(shí)驗(yàn)中心實(shí)驗(yàn)師,主持教育廳創(chuàng)新人才類項(xiàng)目等多個(gè)項(xiàng)目,編寫《計(jì)算機(jī)網(wǎng)絡(luò)實(shí)驗(yàn)教程》《移動(dòng)自組織網(wǎng)絡(luò)——體系結(jié)構(gòu)與路由技術(shù)》等教材。
第 1章\t大數(shù)據(jù)及Python概述\t1
1.1 大數(shù)據(jù)的發(fā)展和現(xiàn)狀 1
1.1.1 大數(shù)據(jù)的產(chǎn)生 1
1.1.2 大數(shù)據(jù)的發(fā)展歷程 2
1.1.3 大數(shù)據(jù)國(guó)內(nèi)外發(fā)展現(xiàn)狀 4
1.2 大數(shù)據(jù)的概念 5
1.2.1 數(shù)據(jù)量大 5
1.2.2 數(shù)據(jù)類型繁多 6
1.2.3 處理速度快 7
1.2.4 價(jià)值密度低 8
1.3 大數(shù)據(jù)的應(yīng)用 8
1.4 大數(shù)據(jù)的關(guān)鍵技術(shù) 9
1.4.1 大數(shù)據(jù)采集技術(shù) 9
1.4.2 大數(shù)據(jù)預(yù)處理技術(shù) 10
1.4.3 大數(shù)據(jù)存儲(chǔ)及管理技術(shù) 10
1.4.4 大數(shù)據(jù)分析及挖掘技術(shù) 10
1.4.5 大數(shù)據(jù)展現(xiàn)與應(yīng)用技術(shù) 11
1.5 大數(shù)據(jù)分析的現(xiàn)狀和步驟 12
1.5.1 大數(shù)據(jù)分析的現(xiàn)狀 12
1.5.2 大數(shù)據(jù)分析創(chuàng)造價(jià)值的步驟 13
1.6 Python在大數(shù)據(jù)應(yīng)用中的重要性 14
1.7 Python與數(shù)據(jù)分析的關(guān)系 14
1.7.1 數(shù)據(jù)分析 14
1.7.2 數(shù)據(jù)分析的基本步驟 15
1.7.3 Python與數(shù)據(jù)分析 16
1.7.4 數(shù)據(jù)分析相關(guān)的Python庫(kù) 16
思考與練習(xí) 18
第 2章 Python基礎(chǔ)知識(shí) 19
2.1 Python概述 19
2.1.1 Python語(yǔ)言的發(fā)展歷程 19
2.1.2 Python的特點(diǎn) 20
2.1.3 Python的下載、安裝與使用 22
2.1.4 Anaconda開發(fā)環(huán)境的安裝和使用 26
2.2 基礎(chǔ)數(shù)據(jù)類型 30
2.2.1 數(shù)字 30
2.2.2 字符串 31
2.3 常量與變量 33
2.4 運(yùn)算符與表達(dá)式 34
2.4.1 算術(shù)運(yùn)算符 35
2.4.2 關(guān)系運(yùn)算符 35
2.4.3 邏輯運(yùn)算符 36
2.4.4 位運(yùn)算符 36
2.4.5 成員和身份運(yùn)算符 36
2.4.6 賦值運(yùn)算符 37
2.5 常用Python內(nèi)置函數(shù) 37
2.5.1 基本輸入/輸出函數(shù) 38
2.5.2 常用轉(zhuǎn)換函數(shù) 39
2.5.3 常用數(shù)學(xué)函數(shù) 40
2.5.4 其他常用函數(shù) 40
思考與練習(xí) 42
第3章 程序流程控制結(jié)構(gòu) 43
3.1 順序結(jié)構(gòu) 43
3.2 分支結(jié)構(gòu) 44
3.2.1 單分支結(jié)構(gòu) 44
3.2.2 雙分支結(jié)構(gòu) 45
3.2.3 多分支選擇結(jié)構(gòu) 46
3.2.4 分支結(jié)構(gòu)的嵌套 48
3.3 循環(huán)結(jié)構(gòu) 49
3.3.1 while 語(yǔ)句 49
3.3.2 for 語(yǔ)句 50
3.3.3 循環(huán)控制語(yǔ)句 51
3.3.4 循環(huán)嵌套 53
思考與練習(xí) 54
第4章 常用組合數(shù)據(jù)類型 55
4.1 列表 55
4.1.1 列表的創(chuàng)建 55
4.1.2 列表的基本操作 56
4.1.3 列表常用方法 58
4.1.4 列表操作符 63
4.1.5 內(nèi)置函數(shù)對(duì)列表的操作 64
4.1.6 切片操作 65
4.1.7 列表應(yīng)用舉例 67
4.2 元組 69
4.2.1 元組的創(chuàng)建 69
4.2.2 元組的基本操作 69
4.2.3 元組運(yùn)算符 70
4.2.4 元組和列表的區(qū)別 70
4.2.5 元組應(yīng)用舉例 71
4.3 字典 72
4.3.1 字典的創(chuàng)建 72
4.3.2 字典的基本操作 73
4.3.3 字典常用方法 74
4.3.4 字典應(yīng)用舉例 75
4.4 集合 76
4.4.1 集合的創(chuàng)建 76
4.4.2 集合的基本操作 77
4.4.3 集合常用方法 77
4.4.4 集合運(yùn)算符 79
4.4.5 集合應(yīng)用舉例 80
思考與練習(xí) 81
第5章 函數(shù)與模塊 82
5.1 函數(shù)概述 82
5.1.1 函數(shù)的功能 82
5.1.2 函數(shù)分類 82
5.2 函數(shù)的定義和調(diào)用 82
5.2.1 函數(shù)的定義和調(diào)用 82
5.2.2 函數(shù)的返回值 83
5.2.3 lambda表達(dá)式 84
5.3 函數(shù)的參數(shù) 85
5.3.1 形參和實(shí)參 85
5.3.2 參數(shù)的傳遞 86
5.3.3 參數(shù)類型 87
5.4 變量的作用域 88
5.4.1 局部變量 88
5.4.2 全局變量 88
5.5 函數(shù)的遞歸調(diào)用 89
5.6 模塊 91
5.6.1 導(dǎo)入模塊 91
5.7 常用標(biāo)準(zhǔn)模塊 92
5.7.1 math模塊 93
5.7.2 time 模塊 93
5.7.3 datetime模塊 95
5.7.4 calendar模塊 98
5.7.5 random庫(kù) 99
思考與練習(xí) 99
第6章 面向?qū)ο蟪绦蛟O(shè)計(jì) 101
6.1 面向?qū)ο蟾攀觥?01
6.1.1 面向?qū)ο蟪绦蛟O(shè)計(jì)基礎(chǔ) 101
6.1.2 類和對(duì)象 102
6.2 類的定義與使用 102
6.2.1 定義類 102
6.2.2 創(chuàng)建類的實(shí)例 102
6.2.3 構(gòu)造方法和析構(gòu)方法 103
6.2.4 類變量和實(shí)例變量 104
6.2.5 訪問限制 105
6.2.6 實(shí)例方法、類方法和靜態(tài)方法 106
6.3 繼承 108
6.3.1 類的繼承 108
6.3.2 子類和父類的關(guān)系 110
6.3.3 方法重寫 111
6.3.4 子類繼承父類的構(gòu)造方法 111
6.3.5 多重繼承 112
6.4 多態(tài) 113
6.5 特殊變量、方法與運(yùn)算符重載 114
6.5.1 特殊變量和方法 114
6.5.2 運(yùn)算符重載 116
思考與練習(xí) 117
第7章 文件相關(guān)操作 118
7.1 文件的類型 118
7.2 文本文件和二進(jìn)制文件的操作方法 118
7.2.1 打開和關(guān)閉文件 118
7.2.2 文件對(duì)象常用操作 119
7.2.3 上下文管理語(yǔ)句 121
7.3 CSV和json文件的操作方法 122
7.3.1 數(shù)據(jù)的維度 122
7.3.2 CSV文件操作 122
7.3.3 JSON文件操作 125
思考與練習(xí) 127
第8章 數(shù)據(jù)預(yù)處理和數(shù)據(jù)分析 129
8.1 了解數(shù)據(jù) 129
8.2 數(shù)據(jù)質(zhì)量 130
8.2.1 完整性 131
8.2.2 一致性 131
8.2.3 準(zhǔn)確性 132
8.2.4 及時(shí)性 132
8.3 數(shù)據(jù)預(yù)處理 132
8.3.1 數(shù)據(jù)清洗 133
8.3.2 數(shù)據(jù)集成 136
8.3.3 數(shù)據(jù)轉(zhuǎn)換 136
8.3.4 數(shù)據(jù)消減 137
8.4 特征工程 138
8.4.1 特征選擇 138
8.4.2 特征構(gòu)建 139
8.5 數(shù)據(jù)分析 140
8.5.1 數(shù)據(jù)分析常用分析思維模式 140
8.5.2 數(shù)據(jù)分析的經(jīng)典算法 142
思考與練習(xí) 152
第9章 使用Numpy進(jìn)行數(shù)據(jù)分析 154
9.1 NumPy概述 154
9.2 NumPy Ndarray對(duì)象 154
9.3 NumPy 數(shù)據(jù)類型 156
9.4 NumPy 數(shù)組屬性 158
9.5 NumPy 創(chuàng)建數(shù)組 160
9.6 NumPy 從數(shù)值范圍創(chuàng)建數(shù)組 161
9.7 NumPy 切片和索引 162
9.8 Numpy 數(shù)組操作 164
9.8.1 修改數(shù)組形狀 164
9.8.2 數(shù)組元素的添加與刪除 166
9.9 NumPy字符串函數(shù) 171
9.10 NumPy Matplotlib 172
9.10.1 安裝 Matplotlib 172
9.10.2 圖形中文顯示 173
9.10.3 繪制正弦波!175
9.10.4 在同一圖中繪制多張子圖 176
9.10.5 生成條形圖 176
9.10.6 頻率分布圖 177
9.10.7 將直方圖的數(shù)字表示轉(zhuǎn)換為圖形 177
思考與練習(xí) 178
第 10章 使用Pandas處理結(jié)構(gòu)化數(shù)據(jù) 179
10.1 Pandas數(shù)據(jù)結(jié)構(gòu)Series 179
10.1.1 Series基本概念及創(chuàng)建 179
10.1.2 Series的索引 180
10.1.3 Series的基本技巧 182
10.2 Pandas數(shù)據(jù)結(jié)構(gòu)Dataframe 183
10.2.1 基本概念及創(chuàng)建 183
10.2.2 Dataframe的索引 184
10.2.3 Dataframe的基本技巧 188
10.3 Pandas時(shí)間模塊 191
10.4 Pandas時(shí)刻數(shù)據(jù) 192
10.5 Pandas時(shí)間戳索引:DatetimeIndex 193
10.6 Pandas時(shí)期:Period 196
10.7 時(shí)間序列 - 索引及切片 196
10.8 時(shí)間序列 - 重采樣 198
10.9 數(shù)值計(jì)算和統(tǒng)計(jì)基礎(chǔ) 203
10.10 文本數(shù)據(jù) 206
10.11 合并 211
10.12 連接與修補(bǔ) 212
10.13 去重及替換 214
10.14 數(shù)據(jù)分組 216
10.15 數(shù)據(jù)讀取 217
思考與練習(xí) 218
第 11章 使用Numpy和Pandas對(duì)數(shù)據(jù)進(jìn)行預(yù)處理 219
11.1 缺失值處理 219
11.1.1 判斷是否是缺失值:isnull,notnull 219
11.1.2 刪除缺失值:dropna 220
11.1.3 填充/替換缺失數(shù)據(jù):fillna、replace 221
11.1.4 4. 缺失值插補(bǔ) 223
11.2 異常值分析和處理 225
11.2.1 正態(tài)分布3σ原則 225
11.2.2 箱型圖分析 227
11.3 數(shù)據(jù)歸一化/標(biāo)準(zhǔn)化 228
11.3.1 0-1標(biāo)準(zhǔn)化 229
11.3.2 Z-score標(biāo)準(zhǔn)化 229
11.4 數(shù)據(jù)連續(xù)屬性離散化 230
11.4.1 等寬法 230
11.4.2 等頻法 232
11.5 數(shù)據(jù)預(yù)處理案例:分析各省市各年度的流感人口數(shù)據(jù) 233
11.5.1 數(shù)據(jù)介紹和任務(wù)要求 233
11.5.2 流感數(shù)據(jù)的讀取與清洗 233
11.5.3 檢查數(shù)據(jù) 236
11.5.4 人口數(shù)據(jù)的清洗與重塑 238
11.5.5 拼接數(shù)據(jù) 240
思考與練習(xí) 241
第 12章 使用Scikit-learn進(jìn)行機(jī)器學(xué)習(xí) 242
12.1 常用模塊 242
12.1.1 分類方法 242
12.1.2 回歸方法 246
12.1.3 聚類方法 248
12.1.4 模型選擇 250
12.2 機(jī)器學(xué)習(xí)選擇算法的策略 250
12.3 機(jī)器學(xué)習(xí)案例——識(shí)別 Iris(鳶尾花)類別 251
12.3.1 加載數(shù)據(jù) 251
12.3.2 數(shù)據(jù)可視化 252
12.3.3 使用邏輯回歸分類器識(shí)別 253
12.3.4 可視化模型結(jié)果 254
思考與練習(xí) 255
第 13章 綜合案例 256
13.1 綜合案例1 USDA食品數(shù)據(jù)庫(kù)簡(jiǎn)單分析食品的營(yíng)養(yǎng)成分 256
13.1.1 數(shù)據(jù)介紹和任務(wù)要求 256
13.1.2 數(shù)據(jù)預(yù)處理和數(shù)據(jù)拼接 257
13.1.3 數(shù)據(jù)分析 260
13.2 綜合案例2 利用泰坦尼克號(hào)數(shù)據(jù)進(jìn)行生還者分析 261
13.2.1 泰坦尼克號(hào)問題之背景 261
13.2.2 問題解決方法 261
13.2.3 數(shù)據(jù)分析 262
13.2.4 邏輯回歸建模 272
13.2.5 交叉驗(yàn)證 275
13.2.6 學(xué)習(xí)曲線 276
13.2.7 總結(jié) 279
思考與練習(xí) 279