隨著大數(shù)據(jù)的興起,Python 和機器學習迅速成為時代的寵兒。本書在內(nèi)容編排上避免了枯燥的理論知識講解,依循理論簡述實際數(shù)據(jù)集Python 程序實現(xiàn)算法分析數(shù)據(jù)的思路,根據(jù)實際數(shù)據(jù)集的分析目的,采用合適的主流機器學習算法來解決問題。全書共12章,其中第1 ~ 4 章介紹了機器學習的基礎知識;第5 ~ 12 章討論了在面對不同的數(shù)據(jù)時,如何采用一些主流的算法來解決問題,主要包括回歸分析、關聯(lián)規(guī)則、無監(jiān)督學習、文本LDA 模型、決策樹和集成學習、樸素貝葉斯和K 近鄰分類、支持向量機和神經(jīng)網(wǎng)絡,以及深
度學習入門等內(nèi)容。針對每個算法,都給出Python 代碼實現(xiàn)算法建模的過程,并結合可視化技術,幫助讀者更好地理解算法和分析結果。
《Python 在機器學習中的應用》是使用Python 進行機器學習的入門實戰(zhàn)教程,可作為以Python 為基礎進行機器學習的本科生和研究生入門書籍,也可供對Python 機器學習感興趣的研究人員參考閱讀。
余本國,博士,碩士研究生導師。于中北大學理學系任教,主講線性代數(shù)、微積分、Python語言、大數(shù)據(jù)分析基礎等課程。2012年到加拿大York University做訪問學者。出版有《Python數(shù)據(jù)分析基礎》《基于Python的大數(shù)據(jù)分析基礎及實戰(zhàn)》等著作。
第1 章 機器學習簡介
1.1 機器學習的任務
1.2 機器學習的三種方式
1.3 機器學習系統(tǒng)的建立
1.4 機器學習實例
第2 章 Python 常用庫介紹
2.1 Python 的安裝(Anaconda)
2.1.1 Spyder
2.1.2 Jupyter Notebook
2.2 Python 常用庫
2.2.1 Numpy 庫
2.2.2 Pandas 庫
2.2.3 Matplotlib 庫
2.2.4 Statsmodels 庫
2.2.5 Scikit-learn 庫
2.3 其他Python 常用的數(shù)據(jù)庫
2.4 Python 各種庫在機器學習中的應用
第3 章 數(shù)據(jù)的準備和探索
3.1 數(shù)據(jù)預處理
3.2 數(shù)據(jù)假設檢驗
3.3 數(shù)據(jù)間的關系
3.4 數(shù)據(jù)可視化
3.5 特征提取和降維
第4 章 模型訓練和評估
4.1 模型訓練技巧
4.2 分類效果的評價
4.3 回歸模型評價
4.4 聚類分析評估
第5 章 回歸分析
5.1 回歸分析簡介
5.2 多元線性回歸分析
5.2.1 多元線性回歸
5.2.2 逐步回歸
5.3 Lasso 回歸分析
5.4 Logistic 回歸分析
5.5 時間序列預測
第6 章 關聯(lián)規(guī)則
6.1 關聯(lián)規(guī)則簡介
6.2 使用關聯(lián)規(guī)則找到問卷的規(guī)則
6.3 關聯(lián)規(guī)則可視化
第7 章 無監(jiān)督學習
7.1 無監(jiān)督學習介紹
7.2 系統(tǒng)聚類
7.3 K- 均值聚類
7.4 密度聚類
7.5 Mean Shift 聚類
7.6 字典學習圖像去噪
第8 章 文本LDA 模型
8.1 文本分析簡介
8.2 中文分詞
8.3 LDA 主題模型分析《紅樓夢》
8.4 紅樓夢人物關系
第9 章 決策樹和集成學習
9.1 模型簡介
9.2 泰坦尼克號數(shù)據(jù)預處理
9.3 決策樹模型
9.4 決策樹剪枝
9.5 隨機森林模型
9.6 AdaBoost 模型
第10 章 樸素貝葉斯和K近鄰分類
10.1 模型簡介
10.2 垃圾郵件數(shù)據(jù)預處理
10.3 貝葉斯模型識別垃圾郵件
10.4 基于異常值檢測的垃圾郵件查找
10.4.1 PCA 異常值檢測
10.4.2 Isolation Forest 異常值檢測
10.5 數(shù)據(jù)不平衡問題的處理
10.6 K 近鄰分類
第11 章 支持向量機和神經(jīng)網(wǎng)絡
11.1 模型簡介
11.2 肺癌數(shù)據(jù)可視化
11.3 支持向量機模型
11.4 全連接神經(jīng)網(wǎng)絡
第12 章 深度學習入門
12.1 深度學習介紹
12.2 卷積和池化
12.3 CNN 人臉識別
12.4 CNN 人臉檢測
12.5 深度卷積圖像去噪
12.5.1 空洞卷積
12.5.2 圖像與圖像塊的相互轉換
12.5.3 一種深度學習去噪方法