機器學(xué)習(xí)是一門多領(lǐng)域交叉學(xué)科,涉及概率論、統(tǒng)計學(xué)、矩陣論、神經(jīng)網(wǎng)絡(luò)、計算機等多門學(xué)科。其目標(biāo)是模擬人類的學(xué)習(xí)活動,從數(shù)據(jù)中獲取知識和技能,重新組織已有的知識結(jié)構(gòu),從而不斷改善系統(tǒng)性能。本書共9項目。項目1介紹機器學(xué)習(xí)基礎(chǔ),概要介紹機器學(xué)習(xí)的發(fā)展簡史和一般步驟,以及本書涉及的方法和算法;項目2項目7討論k近鄰算法、線性回歸、決策樹、貝葉斯分類、支持向量機、集成學(xué)習(xí)等監(jiān)督學(xué)習(xí)方法;項目8介紹聚類的基本知識,闡述無監(jiān)督學(xué)習(xí)方法;項目9討論深度神經(jīng)網(wǎng)絡(luò),主要論述卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)兩種模型。本書由大數(shù)據(jù)技術(shù)與應(yīng)用專業(yè)教師和企業(yè)工程師合力打造,采用大量項目案例講解概念和算法,內(nèi)容編排采用工作手冊式教材形式,項目2項目9相互獨立,學(xué)生可選擇知識點和涉及的技術(shù),滿足不同生源定制化學(xué)習(xí)的需要。同時,華育興業(yè)科技公司開發(fā)有教材配套的實驗實訓(xùn)在線平臺,將教材內(nèi)容和動手實踐緊密結(jié)合起來。本書可作為高職高專院校電子信息領(lǐng)域相關(guān)專業(yè)的教材,也可作為相關(guān)科技人員的參考用書,以及應(yīng)用型本科的實驗補充教材。
艾旭升,男,博士,2003年于鄭州大學(xué)獲碩士,2005年在思科(蘇州)研發(fā)中心工作,負(fù)責(zé)網(wǎng)絡(luò)會議開放接口設(shè)計和開發(fā),2016年于蘇州大學(xué)獲博士學(xué)位,主要研究機器學(xué)習(xí)和數(shù)據(jù)挖掘,目前在蘇州工業(yè)職業(yè)技術(shù)學(xué)院任教,擔(dān)任大數(shù)據(jù)技術(shù)與應(yīng)用專業(yè)帶頭人
項目1?項目環(huán)境的準(zhǔn)備
任務(wù)1.1?項目相關(guān)基本概念
1.1.1?概述
1.1.2?機器學(xué)習(xí)發(fā)展簡史
1.1.3?機器學(xué)習(xí)的一般步驟
1.1.4?機器學(xué)習(xí)的主要任務(wù)
1.1.5?模型評估
1.1.6?如何選擇合適的算法
1.1.7?項目中關(guān)鍵術(shù)語
任務(wù)1.2?項目中常用模型
1.2.1?k近鄰
1.2.2?回歸
1.2.3?決策樹
1.2.4?貝葉斯分類
1.2.5?支持向量機
1.2.6?集成學(xué)習(xí)
1.2.7?聚類
1.2.8?深度神經(jīng)網(wǎng)絡(luò)
任務(wù)1.3?Python+PyCharm環(huán)境配置
1.3.1?為什么選用Python
1.3.2?PyCharm+Python開發(fā)環(huán)境配置
1.3.3?NumPy安裝與PyCharm引入
任務(wù)1.4?常用Python分析工具配置
1.4.1?基本知識
1.4.2?第一機器學(xué)習(xí)案例電影分類業(yè)務(wù)理解
1.4.3?應(yīng)用Pandas實現(xiàn)電影分類數(shù)據(jù)讀取
1.4.4?應(yīng)用Matplotlib實現(xiàn)電影分類數(shù)據(jù)可視化
1.4.5?應(yīng)用Sklearn實現(xiàn)電影分類學(xué)習(xí)過程
1.5?項目復(fù)盤
1.6?實操練習(xí)
項目2?k近鄰回歸與分類
任務(wù)2.1?k近鄰算法概述
2.1.1?什么是k近鄰算法
2.1.2?應(yīng)用Python實現(xiàn)k近鄰算法
2.1.3?值的選擇與過擬合問題
任務(wù)2.2?k近鄰算法實現(xiàn)葡萄酒分類
2.2.1?葡萄酒數(shù)據(jù)的準(zhǔn)備
2.2.2?應(yīng)用Pandas讀取葡萄酒實驗文本數(shù)據(jù)
2.2.3?數(shù)據(jù)分布可視化分析
2.2.4?數(shù)據(jù)清洗
2.2.5?數(shù)據(jù)標(biāo)準(zhǔn)化
2.2.6?值的選擇
2.2.7?構(gòu)建完整可用的葡萄酒kNN分類器
2.2.8?結(jié)果分析
2.3?項目復(fù)盤
2.4?實操練習(xí)
項目3?線性回歸預(yù)測與邏輯回歸分類
任務(wù)3.1?項目準(zhǔn)備
3.1.1?線性回歸基本知識
3.1.2?普通最小二乘法
3.1.3?回歸方程評估
3.1.4?欠擬合問題
3.1.5?多重共線性問題
3.1.6?嶺回歸
任務(wù)3.2?波士頓房價線性回歸預(yù)測
3.2.1?數(shù)據(jù)的準(zhǔn)備
3.2.2?應(yīng)用Pandas讀取數(shù)據(jù)
3.2.3?使用Matplotlib進行數(shù)據(jù)可視化分析
3.2.4?特征降維處理
3.2.5?線性回歸模型降維分析
3.2.6?多項式特征生成
任務(wù)3.3?蔦尾花邏輯回歸分類
3.3.1?邏輯回歸基本知識
3.3.2?鳶尾花邏輯回歸分類
3.3.3?性能指標(biāo)ROC和AUC
3.4?項目復(fù)盤
3.5?實操練習(xí)
項目4?決策樹分類與回歸
任務(wù)4.1?決策樹構(gòu)造
4.1.1?決策樹歸納算法基本策略
4.1.2?樹的劃分規(guī)則
4.1.3?樹的剪枝處理
任務(wù)4.2?鳶尾花決策樹分類
4.2.1?決策樹分類Python編程
4.2.2?鳶尾花決策樹分類深度與過擬合
4.2.3?鳶尾花決策樹分類模型與評估
任務(wù)4.3?波士頓房價決策樹回歸
4.3.1?決策樹回歸Python編程
4.3.2?波士頓房價決策樹回歸深度與過擬合
4.3.3?波士頓房價決策樹回歸模型預(yù)測與評估
4.4?項目復(fù)盤
4.5?實操練習(xí)
項目5?貝葉斯分類
任務(wù)5.1?知識準(zhǔn)備
5.1.1?概述
5.1.2?貝葉斯推斷
5.1.3?樸素貝葉斯推斷
任務(wù)5.2?鳶尾花GaussianNB分類
5.2.1?高斯樸素貝葉斯
5.2.2?鳶尾花分類Python編程
任務(wù)5.3?郵件MultinomialNB分類
5.3.1?多項式樸素貝葉斯
5.3.2?郵件貝葉斯過濾分類
5.3.3?數(shù)據(jù)準(zhǔn)備與停用詞表準(zhǔn)備
5.3.4?中文切分與字符過濾及停用詞處理
5.3.5?獲取全部訓(xùn)練集中單詞列表和頻次最高的單詞集
5.3.6?獲取高頻詞數(shù)據(jù)集在郵件中的頻次
5.3.7?應(yīng)用MultinomialNB創(chuàng)建貝葉斯模型訓(xùn)練數(shù)據(jù)
5.3.8?應(yīng)用MultinomialNB實現(xiàn)未知郵件分類預(yù)測
5.4?項目復(fù)盤
5.5?實操練習(xí)
項目6?支持向量機
任務(wù)6.1?知識準(zhǔn)備
6.1.1?基本原理
6.1.2?線性可分與線性不可分
6.1.3?二分類實現(xiàn)
6.1.4?硬間隔與軟間隔
6.1.5?應(yīng)用GridSearchCV自動優(yōu)選超參數(shù)
任務(wù)6.2?基于SVM手寫數(shù)字識別技術(shù)
6.2.1?數(shù)據(jù)的準(zhǔn)備與業(yè)務(wù)分析
6.2.2?手寫數(shù)字圖片可視化顯示
6.2.3?應(yīng)用GridSearchCV尋找高斯核最優(yōu)參數(shù)
6.2.4?數(shù)字識別模型實現(xiàn)
任務(wù)6.3?半導(dǎo)體制造過程信息傳遞判定
6.3.1?準(zhǔn)備并解析數(shù)據(jù)
6.3.2?應(yīng)用Python讀取和探查數(shù)據(jù)
6.3.3?組織需要的數(shù)據(jù)
6.3.4?數(shù)據(jù)預(yù)處理
6.3.5?建立半導(dǎo)體制造過程智能分類模型
6.3.6?保存訓(xùn)練模型和分類的結(jié)果
6.3.7?模型性能分析
6.3.8?模型性能可視化分析
6.5?項目復(fù)盤
6.6?實操練習(xí)
項目7?個體學(xué)習(xí)與集成學(xué)習(xí)
任務(wù)7.1?知識準(zhǔn)備
任務(wù)7.2?基于kNN學(xué)習(xí)器Bagging應(yīng)用
7.2.1?Bagging基本知識
7.2.2?Python鳶尾花分類編程
任務(wù)7.3?隨機森林回歸與分類
7.3.1?隨機森林基本知識
7.3.2?隨機森林波士頓房價回歸預(yù)測
7.3.3?隨機森林鳶尾花數(shù)據(jù)兩特征組合分類
任務(wù)7.4?Boosting應(yīng)用
7.4.1?Boosting基本知識
7.4.2?AdaBoost鳶尾花數(shù)據(jù)兩特征組合分類
7.4.3?XGBoost葡萄酒分類
7.5?項目復(fù)盤
7.6?實操練習(xí)
項目8?聚類
任務(wù)8.1?知識準(zhǔn)備
8.1.1?聚類基本知識
8.1.2?聚類中的主要問題
8.1.3?常用聚類算法
任務(wù)8.2?基于K-Means鳶尾花分類
8.2.1?基本知識
8.2.2?數(shù)據(jù)讀取
8.2.3?構(gòu)建K-Means分類模型
8.2.4?K-Means模型性能評估
8.2.5?K-Means模型結(jié)果可視化
8.3?項目復(fù)盤
8.4?實操練習(xí)
項目9?深度神經(jīng)網(wǎng)絡(luò)
任務(wù)9.1?知識準(zhǔn)備
9.1.1?深度前饋神經(jīng)網(wǎng)絡(luò)
9.1.2?示例:印第安人糖尿病診斷
9.1.3?卷積神經(jīng)網(wǎng)絡(luò)
9.1.4?循環(huán)神經(jīng)網(wǎng)絡(luò)和長短期記憶網(wǎng)絡(luò)
9.1.5?示例:基于LSTM的國際旅行人數(shù)預(yù)測
任務(wù)9.2?基于CNN的時間戳圖像識別
9.2.1?準(zhǔn)備數(shù)據(jù):從視頻圖像中分割時間數(shù)字
9.2.2?分析數(shù)據(jù):初始化CNN的網(wǎng)絡(luò)結(jié)構(gòu)
9.2.3?處理數(shù)據(jù):訓(xùn)練CNN的網(wǎng)絡(luò)參數(shù)
9.2.4?使用算法:時間戳識別算法
9.2.5?結(jié)果分析:測試CNN模型
9.3?項目復(fù)盤
9.4?實操練習(xí)