定 價(jià):59 元
叢書(shū)名:面向新工科高等院校大數(shù)據(jù)專業(yè)系列教材
- 作者:呂云翔姚澤良李伊琳等編著
- 出版時(shí)間:2022/4/1
- ISBN:9787111701187
- 出 版 社:機(jī)械工業(yè)出版社
- 中圖法分類:TP311.561
- 頁(yè)碼:
- 紙張:膠版紙
- 版次:
- 開(kāi)本:16開(kāi)
《Python數(shù)據(jù)分析與可視化》介紹了數(shù)據(jù)分析的各主要流程,并引入了6個(gè)完整的數(shù)據(jù)分析案例。《Python數(shù)據(jù)分析與可視化》從理論和案例兩個(gè)角度對(duì)數(shù)據(jù)分析與可視化以及Python的工具進(jìn)行了介紹,采用理論分析和編程實(shí)踐相結(jié)合的形式,按照數(shù)據(jù)分析的基本步驟介紹了數(shù)據(jù)分析的理論知識(shí),并對(duì)相應(yīng)的Python庫(kù)進(jìn)行了詳細(xì)介紹,讓讀者在了解數(shù)據(jù)分析的基本理論知識(shí)的同時(shí)能夠快速上手實(shí)現(xiàn)數(shù)據(jù)分析的程序。
《Python數(shù)據(jù)分析與可視化》適合Python語(yǔ)言初學(xué)者、數(shù)據(jù)分析從業(yè)人士以及高等院校計(jì)算機(jī)、軟件工程、大數(shù)據(jù)、人工智能等相關(guān)專業(yè)的師生使用。
1)信息技術(shù)新工科產(chǎn)學(xué)研聯(lián)盟數(shù)據(jù)科學(xué)與大數(shù)據(jù)工作委員會(huì)推薦教材。
2)按照數(shù)據(jù)預(yù)處理、分析與知識(shí)發(fā)現(xiàn)、可視化三個(gè)步驟,講解數(shù)據(jù)分析涉及的理論。
3)引入了6個(gè)完整的數(shù)據(jù)分析案例,從理論和案例兩個(gè)角度,介紹數(shù)據(jù)分析與可視化和Python的工具。
4)隨書(shū)配備電子課件、習(xí)題答案、教學(xué)大綱、代碼和數(shù)據(jù)集、案例視頻講解等教學(xué)資源。
本書(shū)是面向初學(xué)者的數(shù)據(jù)分析與可視化的入門教程。按照數(shù)據(jù)分析的數(shù)據(jù)預(yù)處理、分析與知識(shí)發(fā)現(xiàn)和可視化3個(gè)主要步驟,逐步對(duì)數(shù)據(jù)分析涉及的理論進(jìn)行講解,并對(duì)實(shí)現(xiàn)這些步驟所用到的Python庫(kù)進(jìn)行了詳細(xì)的介紹。通過(guò)理論與實(shí)踐相結(jié)合的講解方式,讀者能夠在了解數(shù)據(jù)分析基礎(chǔ)知識(shí)的同時(shí)快速上手實(shí)現(xiàn)一些簡(jiǎn)單的數(shù)據(jù)分析程序。
全書(shū)分14章,通過(guò)閱讀第1~8章的內(nèi)容,讀者可以對(duì)數(shù)據(jù)分析的各主要流程具有一定的認(rèn)識(shí),但這些知識(shí)可能還未能形成一個(gè)完整的體系。因此在第9~14章引入了6個(gè)完整的數(shù)據(jù)分析案例,以幫助讀者建立知識(shí)點(diǎn)之間的聯(lián)系,形成對(duì)數(shù)據(jù)分析整個(gè)知識(shí)體系的清晰認(rèn)知。建議讀者在閱讀實(shí)戰(zhàn)章節(jié)時(shí),可以跟隨介紹自己動(dòng)手嘗試一下,一定會(huì)發(fā)現(xiàn)數(shù)據(jù)分析的魅力所在。
作為一本數(shù)據(jù)分析的入門書(shū)籍,本書(shū)著重對(duì)基礎(chǔ)知識(shí)的介紹,因此對(duì)前沿的內(nèi)容涉及不多,這些內(nèi)容留待讀者在更進(jìn)一步的學(xué)習(xí)中深入探索。對(duì)于Python語(yǔ)言的知識(shí),本書(shū)僅對(duì)與數(shù)據(jù)分析和可視化相關(guān)的庫(kù)進(jìn)行了介紹,如果讀者對(duì)Python語(yǔ)言本身感興趣,還可以參考Python語(yǔ)言工具書(shū)及官方文檔等詳細(xì)了解Python的語(yǔ)法和底層原理等。另外,本書(shū)所有數(shù)據(jù)分析的程序?qū)崿F(xiàn)均是在單機(jī)的情況下進(jìn)行的,并沒(méi)有對(duì)如何使用Python進(jìn)行分布式數(shù)據(jù)分析的介紹,感興趣的讀者可以去了解一下Python分布式數(shù)據(jù)分析的相關(guān)庫(kù),如Pyspark等。
本書(shū)的作者為呂云翔、姚澤良、李伊琳、王肇一、許麗華、韓延剛、謝謹(jǐn)蔓、洪振東、姜嶠、孔子喬,曾洪立參與了部分內(nèi)容的編寫(xiě)并進(jìn)行了素材整理及配套資源制作等。
由于編者水平和能力有限,書(shū)中難免有疏漏之處,懇請(qǐng)廣大讀者給予批評(píng)指正,也希望各位能將實(shí)踐過(guò)程中的經(jīng)驗(yàn)和心得與我們交流。
前言
第1章數(shù)據(jù)分析是什么
1.1海量數(shù)據(jù)蘊(yùn)藏的知識(shí)
1.2數(shù)據(jù)分析與數(shù)據(jù)挖掘的關(guān)系
1.3機(jī)器學(xué)習(xí)概述
1.4機(jī)器學(xué)習(xí)與數(shù)據(jù)分析的關(guān)系
1.5數(shù)據(jù)分析的基本步驟
1.6Python和數(shù)據(jù)分析
習(xí)題
第2章Python語(yǔ)言基礎(chǔ)
2.1Python發(fā)展史
2.2Python及Pandas、scikit-
learn、Matplotlib的
安裝
2.2.1Windows環(huán)境下Python的
安裝
2.2.2Ubuntu和Mac環(huán)境下
Python的安裝
2.2.3集成開(kāi)發(fā)環(huán)境
2.2.4使用pip安裝Pandas、
scikit-learn和Matplotlib
2.2.5使用第三方科學(xué)計(jì)算發(fā)行版
Python進(jìn)行快速安裝
2.3Pycharm
2.4Python基礎(chǔ)知識(shí)
2.4.1Python編碼規(guī)范
2.4.2模塊化的系統(tǒng)
2.5Python基礎(chǔ)語(yǔ)法
2.5.1數(shù)據(jù)類型
2.5.2基本計(jì)算
2.5.3控制語(yǔ)句
2.6重要的Python庫(kù)
2.6.1Pandas
2.6.2scikit-learn
2.6.3Matplotlib
2.6.4其他
2.7Jupyter
習(xí)題
第3章數(shù)據(jù)預(yù)處理
3.1了解數(shù)據(jù)
3.2數(shù)據(jù)質(zhì)量
3.2.1完整性
3.2.2一致性
3.2.3準(zhǔn)確性
3.2.4及時(shí)性
3.3數(shù)據(jù)清洗
3.4特征工程
3.4.1特征選擇
3.4.2特征構(gòu)建
3.4.3特征提取
習(xí)題
第4章NumPy數(shù)據(jù)分析基礎(chǔ)
工具
4.1多維數(shù)組對(duì)象:ndarray
4.1.1ndarray的創(chuàng)建
4.1.2ndarray的數(shù)據(jù)類型
4.2ndarray的索引、切片和
迭代
4.3ndarray的shape操作
4.4ndarray的基礎(chǔ)操作
4.5習(xí)題
第5章Pandas處理結(jié)構(gòu)化
數(shù)據(jù)
5.1基本數(shù)據(jù)結(jié)構(gòu)
5.1.1Series
5.1.2DataFrame
5.2基于Pandas的Index對(duì)象的
訪問(wèn)操作
5.2.1Pandas的Index對(duì)象
5.2.2索引的不同訪問(wèn)方式
5.3數(shù)學(xué)統(tǒng)計(jì)和計(jì)算工具
5.3.1統(tǒng)計(jì)函數(shù):協(xié)方差、相關(guān)
系數(shù)、排序
5.3.2窗口函數(shù)
5.4數(shù)學(xué)聚合和分組運(yùn)算
5.4.1agg函數(shù)的聚合操作
5.4.2transform函數(shù)的轉(zhuǎn)換
操作
5.4.3apply函數(shù)實(shí)現(xiàn)一般的
操作
習(xí)題
第6章數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn)的一些
常用方法
6.1分類分析
6.1.1邏輯回歸
6.1.2線性判別分析
6.1.3支持向量機(jī)
6.1.4決策樹(shù)
6.1.5K鄰近
6.1.6樸素貝葉斯
6.2關(guān)聯(lián)分析
6.2.1基本概念
6.2.2典型算法
6.3聚類分析
6.3.1K均值算法
6.3.2DBSCAN算法
6.4回歸分析
6.4.1線性回歸分析
6.4.2支持向量回歸
6.4.3K鄰近回歸
習(xí)題
第7章Pandas與scikit-learn實(shí)
現(xiàn)數(shù)據(jù)的分析
7.1分類方法
7.1.1Logistic回歸
7.1.2支持向量機(jī)
7.1.3近鄰算法
7.1.4決策樹(shù)
7.1.5隨機(jī)梯度下降
7.1.6高斯過(guò)程分類
7.1.7神經(jīng)網(wǎng)絡(luò)分類(多層感
知器)
7.1.8樸素貝葉斯
7.2回歸方法
7.2.1小二乘法
7.2.2嶺回歸
7.2.3Lasso
7.2.4貝葉斯嶺回歸
7.2.5決策樹(shù)回歸
7.2.6高斯過(guò)程回歸
7.2.7近鄰回歸
7.3聚類方法
7.3.1K-means算法
7.3.2AffinityPropagation算法
7.3.3Mean-shift算法
7.3.4SpectralClustering算法
7.3.5HierarchicalClustering
算法
7.3.6DBSCAN算法
7.3.7Birch算法
習(xí)題
第8章Matplotlib交互式圖表
繪制
8.1基本布局對(duì)象
8.2圖表樣式的修改以及裝飾項(xiàng)
接口
8.3基礎(chǔ)圖表繪制
8.3.1直方圖
8.3.2散點(diǎn)圖
8.3.3餅圖
8.3.4柱狀圖
8.3.5折線圖
8.3.6表格
8.3.7不同坐標(biāo)系下的圖像
8.4matplot3D
8.5Matplotlib與Jupyter結(jié)合
習(xí)題
第9章案例:新生信息分析與
可視化
9.1使用Pandas對(duì)數(shù)據(jù)預(yù)
處理
9.2使用Matplotlib庫(kù)畫(huà)圖
9.3使用Pandas進(jìn)行繪圖
第10章案例:用戶流失預(yù)警
10.1讀入數(shù)據(jù)
10.2數(shù)據(jù)預(yù)處理
10.3五折交叉驗(yàn)證
10.4引入3種模型
10.5調(diào)整prob閾值輸出精確
評(píng)估
第11章案例:美國(guó)加利福尼亞房?jī)r(jià)
預(yù)測(cè)的數(shù)據(jù)分析
11.1數(shù)據(jù)分析常用的Python
工具庫(kù)
11.1.1Pandas
11.1.2NumPy
11.1.3Matplotlib
11.1.4Sklearn
11.2數(shù)據(jù)的讀入和初步分析
11.2.1數(shù)據(jù)讀入
11.2.2分割測(cè)試集與訓(xùn)練集
11.2.3數(shù)據(jù)的初步分析
11.3數(shù)據(jù)的預(yù)處理
11.3.1拆分?jǐn)?shù)據(jù)
11.3.2空白值的填充
11.3.3數(shù)據(jù)的標(biāo)準(zhǔn)化
11.3.4數(shù)據(jù)的流程化處理
11.4模型的構(gòu)建
11.4.1查看不同模型的表現(xiàn)
11.4.2選擇效果好的模型進(jìn)行
預(yù)測(cè)
第12章案例:基于上下文感知的
多模態(tài)交通推薦
12.1題目理解
12.1.1題目背景
12.1.2數(shù)據(jù)說(shuō)明
12.1.3評(píng)測(cè)指標(biāo)
12.1.4輸出格式
12.2解決方案
12.2.1工具包導(dǎo)入
12.2.2特征工程
第13章案例:機(jī)器人路徑走
迷宮
13.1關(guān)鍵技術(shù)
13.1.1馬爾科夫決策過(guò)程
13.1.2Bellman方程
13.2程序設(shè)計(jì)步驟
13.2.1初始化迷宮地圖
13.2.2計(jì)算不同位置
路徑
第14章案例:基于Python Elasticsearch
實(shí)現(xiàn)搜索附近小區(qū)房?jī)r(jià)
14.1程序設(shè)計(jì)
14.2準(zhǔn)備數(shù)據(jù)
14.3安裝以及使用
Elasticsearch
14.4實(shí)現(xiàn)附近房?jī)r(jià)搜索
的搜索引擎
參考文獻(xiàn)