本書緊跟數(shù)據(jù)分析的發(fā)展新趨勢,基于Python的數(shù)據(jù)分析平臺和工具,系統(tǒng)介紹數(shù)據(jù)分析的相關(guān)知識與技能。本書共7個項目,分為3部分:基礎(chǔ)部分、數(shù)據(jù)分析部分、機器學(xué)習(xí)實戰(zhàn)部分;A(chǔ)部分包括項目一和項目二,介紹數(shù)據(jù)分析環(huán)境的搭建,以及NumPy的理論和實踐知識;數(shù)據(jù)分析部分包括項目三~項目六,結(jié)合案例介紹數(shù)據(jù)檢查、數(shù)據(jù)呈現(xiàn)、數(shù)據(jù)多維化等,涵蓋真實數(shù)據(jù)分析工作的完整流程;機器學(xué)習(xí)實戰(zhàn)部分只包括項目七,利用一個神經(jīng)網(wǎng)絡(luò)實戰(zhàn)案例呈現(xiàn)機器學(xué)習(xí)的完整過程。
本書選用真實度高的實踐案例,深入淺出地介紹與數(shù)據(jù)分析相關(guān)的理論和實踐知識。本書可作為高校數(shù)據(jù)分析相關(guān)課程的教材,也可供剛進入數(shù)據(jù)分析領(lǐng)域的人員及具有實踐經(jīng)驗的從業(yè)者學(xué)習(xí)、參考使用。
1.本書主要針對高等職業(yè)院校學(xué)生的特點,以對應(yīng)崗位需求為錨點,突出技能教育,提高高職學(xué)生在數(shù)據(jù)分析領(lǐng)域的職業(yè)素質(zhì)。
2.本書精心選擇大型真實案例數(shù)據(jù)集,作為貫穿全書知識點的核心骨干,能有效的激發(fā)學(xué)生的學(xué)習(xí)興趣,有助于建立學(xué)生的實際崗位代入感。
3.合理平衡理論知識與實踐操作,注重主要理論知識的講解,強調(diào)構(gòu)建核心技能圖譜,幫助學(xué)生掌握整體思路的基礎(chǔ)上同時熟悉操作細(xì)節(jié)。
4.本書為每個技能點備有針對性的、豐富的、基于實際需求的、適合各個學(xué)習(xí)階層的實操練習(xí),拓展學(xué)生的課堂所學(xué)。
5.本書有機結(jié)合項目驅(qū)動案例教學(xué)基于工作過程的教學(xué)等多種教學(xué)方法,充分激發(fā)學(xué)生的學(xué)習(xí)興趣,發(fā)揮學(xué)生學(xué)習(xí)的主動性,變常規(guī)的教學(xué)方式為學(xué)生為主型的主動學(xué)習(xí)方式。
劉凱洋,男,講師,1978.12出生。 1999.7月畢業(yè)于西安交通大學(xué)計算機科學(xué)系。 1999.7-2004.10 畢業(yè)于香港科技大學(xué)計算機科學(xué)系,獲得博士學(xué)位。 2005.6至今 深圳職業(yè)技術(shù)學(xué)院從事教學(xué)和科研工作 主持2006年校級科研項目《基于嵌入式的網(wǎng)絡(luò)安全系統(tǒng)》,參與了2009年國家精品課程《Oracle數(shù)據(jù)庫系統(tǒng)管理》,以作者發(fā)表論文3篇。主要研究方向為圖論、自然語言處理等
基礎(chǔ)部分
項目一 數(shù)據(jù)分析概述與環(huán)境配置 1
1.1 項目背景 1
1.2 技能圖譜 3
1.3 工具介紹 4
1.3.1 Python介紹 4
1.3.2 核心包介紹 5
1.3.3 輔助工具介紹 6
1.4 工作環(huán)境配置 7
1.4.1 安裝Python 7
1.4.2 配置虛擬環(huán)境 8
1.4.3 安裝第三方包 9
1.5 Jupyter Notebook使用入門 10
1.5.1 Notebook架構(gòu) 10
1.5.2 Notebook啟動 10
1.5.3 Notebook主頁基本操作 11
1.5.4 Notebook的保存 12
1.6 項目總結(jié) 12
項目二 NumPy實戰(zhàn) 13
2.1 項目背景 13
2.2 技能圖譜 14
2.3 數(shù)組介紹 14
2.3.1 創(chuàng)建數(shù)組 15
2.3.2 了解數(shù)組特性 18
2.3.3 了解廣播 20
2.3.4 練習(xí) 23
2.4 數(shù)組基本操作 24
2.4.1 變換數(shù)組 24
2.4.2 訪問數(shù)組 26
2.4.3 復(fù)制數(shù)組 29
2.4.4 練習(xí) 31
2.5 數(shù)組常用操作 32
2.5.1 使用ufunc 32
2.5.2 查詢數(shù)組 34
2.5.3 排序數(shù)組 35
2.5.4 練習(xí) 37
2.6 項目總結(jié) 38
數(shù)據(jù)分析部分
項目三 全球氣溫變化趨勢(一)數(shù)據(jù)檢查 39
3.1 項目背景 39
3.2 技能圖譜 40
3.3 數(shù)據(jù)獲取 40
3.3.1 了解獲取途徑 40
3.3.2 了解項目數(shù)據(jù) 41
3.3.3 練習(xí) 41
3.4 數(shù)據(jù)讀入 41
3.4.1 了解數(shù)據(jù)格式 42
3.4.2 讀入數(shù)據(jù)文件 42
3.4.3 處理讀入異!43
3.4.4 練習(xí) 43
3.5 數(shù)據(jù)檢查 43
3.5.1 查看數(shù)據(jù)集大小 44
3.5.2 查看列標(biāo)簽和數(shù)據(jù)類型 44
3.5.3 了解數(shù)據(jù)結(jié)構(gòu) 45
3.5.4 練習(xí) 46
3.6 數(shù)據(jù)內(nèi)容訪問 47
3.6.1 采用[]方式 47
3.6.2 采用.[i]loc方式 49
3.6.3 采用表達式方式 51
3.6.4 數(shù)據(jù)可視化 52
3.6.5 練習(xí) 53
3.7 項目總結(jié) 53
項目四 全球氣溫變化趨勢(二)數(shù)據(jù)分析 54
4.1 項目背景 54
4.2 技能圖譜 55
4.3 列處理 55
4.3.1 重命名列標(biāo)簽 55
4.3.2 刪除、合并列 56
4.3.3 轉(zhuǎn)換日期數(shù)據(jù) 57
4.3.4 練習(xí) 58
4.4 索引處理 58
4.4.1 設(shè)置單級索引 59
4.4.2 設(shè)置多級索引 60
4.4.3 查詢索引 61
4.4.4 練習(xí) 63
4.5 統(tǒng)計分析 64
4.5.1 實現(xiàn)數(shù)據(jù)排序 64
4.5.2 實現(xiàn)簡單統(tǒng)計 65
4.5.3 實現(xiàn)分組統(tǒng)計 66
4.5.4 練習(xí) 70
4.6 項目總結(jié) 71
項目五 全球氣溫變化趨勢(三)數(shù)據(jù)呈現(xiàn) 72
5.1 項目背景 72
5.2 技能圖譜 73
5.3 數(shù)據(jù)清洗 73
5.3.1 處理缺失值 74
5.3.2 檢測異常值 75
5.3.3 處理異常值 78
5.3.4 練習(xí) 81
5.4 數(shù)據(jù)轉(zhuǎn)換 82
5.4.1 實現(xiàn)數(shù)據(jù)替換 82
5.4.2 實現(xiàn)離散化 83
5.4.3 實現(xiàn)重取樣 83
5.4.4 練習(xí) 84
5.5 數(shù)據(jù)可視化 84
5.5.1 繪制折線圖 84
5.5.2 繪制餅圖 88
5.5.3 繪制柱狀圖 89
5.5.4 練習(xí) 94
5.6 項目總結(jié) 98
項目六 全球氣溫變化趨勢(四)數(shù)據(jù)多維化 99
6.1 項目背景 99
6.2 技能圖譜 99
6.3 數(shù)據(jù)拆分與拼接 100
6.3.1 了解軸向 100
6.3.2 拆分?jǐn)?shù)據(jù) 101
6.3.3 拼接數(shù)據(jù) 103
6.3.4 練習(xí) 109
6.4 數(shù)據(jù)透視表 109
6.4.1 了解數(shù)據(jù)透視表 109
6.4.2 使用pivot_table() 110
6.4.3 使用crosstab() 113
6.4.4 練習(xí) 115
6.5 項目總結(jié) 115
機器學(xué)習(xí)實戰(zhàn)部分
項目七 機器學(xué)習(xí)實戰(zhàn)模型的自我學(xué)習(xí) 117
7.1 項目背景 117
7.2 技能圖譜 119
7.3 背景知識介紹 119
7.3.1 了解人工智能 120
7.3.2 了解機器學(xué)習(xí) 125
7.3.3 了解人工智能實際應(yīng)用 129
7.3.4 練習(xí) 130
7.4 神經(jīng)網(wǎng)絡(luò)簡介 130
7.4.1 了解神經(jīng)網(wǎng)絡(luò) 132
7.4.2 了解常見神經(jīng)網(wǎng)絡(luò) 136
7.4.3 了解CNN 139
7.4.4 練習(xí) 143
7.5 CNN實戰(zhàn) 143
7.5.1 預(yù)處理數(shù)據(jù) 143
7.5.2 構(gòu)建和訓(xùn)練模型 146
7.5.3 分析模型性能 148
7.5.4 練習(xí) 153
7.6 項目總結(jié) 155