《從統(tǒng)計(jì)世界走向人工智能——實(shí)戰(zhàn)案例與算法》敘述了從數(shù)學(xué)到統(tǒng)計(jì)、從統(tǒng)計(jì)到人工智能的發(fā)展,結(jié)合大量的實(shí)際商業(yè)應(yīng)用案例介紹了諸多經(jīng)典的機(jī)器學(xué)習(xí)算法,比如LASSO回歸、MCMC、決策樹、隨機(jī)森林和神經(jīng)網(wǎng)絡(luò)等。《從統(tǒng)計(jì)世界走向人工智能——實(shí)戰(zhàn)案例與算法》將案例與算法結(jié)合,基于人工智能的場(chǎng)景,從理論到實(shí)際操作層層遞進(jìn),讀者從中可以學(xué)習(xí)從需求到分析,再到結(jié)論的實(shí)際編程方法。當(dāng)讀者閱讀完《從統(tǒng)計(jì)世界走向人工智能——實(shí)戰(zhàn)案例與算法》后,不僅可以了解實(shí)際問題的需求,而且可以學(xué)習(xí)到解決問題的算法。
更多科學(xué)出版社服務(wù),請(qǐng)掃碼獲取。
目錄
序
前言
第1章 數(shù)學(xué)→統(tǒng)計(jì)→人工智能 1
1.1 數(shù)學(xué)與統(tǒng)計(jì) 1
1.2 數(shù)據(jù)與統(tǒng)計(jì) 1
1.2.1 動(dòng)態(tài)的數(shù)據(jù) 1
1.2.2 非結(jié)構(gòu)化的數(shù)據(jù) 2
1.2.3 商業(yè)場(chǎng)景的數(shù)據(jù)初始化 3
1.2.4 統(tǒng)計(jì)中的數(shù)據(jù)與商業(yè)中的數(shù)據(jù) 3
1.3 統(tǒng)計(jì)與人工智能 3
1.3.1 人工智能的開端 5
1.3.2 人工智能的解決方法 5
1.3.3 從統(tǒng)計(jì)建模到人工智能 6
1.4 人工智能與企業(yè)商業(yè)賦能的進(jìn)階發(fā)展 6
1.4.1 階段性發(fā)展 6
1.4.2 更高一層發(fā)展模式 7
1.5 人工智能+人:未來職業(yè)暢想 7
1.5.1 人與機(jī)器的充分融合 7
1.5.2 歷史上企業(yè)轉(zhuǎn)型的特征 8
1.5.3 人機(jī)協(xié)作與融合 8
1.5.4 未來職業(yè)場(chǎng)景 9
第2章 點(diǎn)評(píng)數(shù)據(jù)對(duì)上市公司的影響——基于統(tǒng)計(jì)回歸模型 11
2.1 通過點(diǎn)評(píng)網(wǎng)站數(shù)據(jù)研究上市公司 11
2.1.1 有效市場(chǎng)假說 11
2.1.2 Yelp數(shù)據(jù)庫(kù)介紹 11
2.2 點(diǎn)評(píng)網(wǎng)站數(shù)據(jù)處理 12
2.2.1 數(shù)據(jù)獲取 12
2.2.2 變量提取 14
2.2.3 面板數(shù)據(jù)準(zhǔn)備 16
2.3 回歸模型設(shè)計(jì) 18
2.3.1 模型一:普通 OLS 18
2.3.2 模型二:引入時(shí)間趨勢(shì)項(xiàng) 18
2.3.3 模型三:固定效應(yīng)模型 19
2.4 點(diǎn)評(píng)網(wǎng)站對(duì)公司的價(jià)值分析 19
2.5 延伸場(chǎng)景及應(yīng)用 22
第3章 LASSO回歸及重要能源價(jià)格預(yù)測(cè) 24
3.1 通過多變量研究重要能源價(jià)格 24
3.2 回歸模型的遞進(jìn) 25
3.2.1 從線性回歸到Ridge回歸 25
3.2.2 Ridge回歸與LASSO回歸 26
3.3 用LASSO回歸預(yù)測(cè)重要能源價(jià)格 28
3.3.1 預(yù)測(cè)框架——理解行業(yè)邏輯 28
3.3.2 數(shù)據(jù)清洗 29
3.3.3 模型初試——讓模型跑起來 29
3.3.4 如何改進(jìn)——提高預(yù)測(cè)精度 31
3.4 LASSO回歸總結(jié)以及延伸應(yīng)用 35
第4章 樸素貝葉斯方法在財(cái)務(wù)報(bào)表分析中的應(yīng)用 36
4.1 通過三大報(bào)表推演企業(yè)未來財(cái)務(wù) 36
4.2 樸素貝葉斯理論介紹 37
4.2.1 貝葉斯理論的思想 37
4.2.2 樸素貝葉斯方法 38
4.2.3 樸素貝葉斯方法的參數(shù)估計(jì) 38
4.3 用樸素貝葉斯方法對(duì)企業(yè)未來財(cái)務(wù)的預(yù)測(cè) 39
4.3.1 分析框架 39
4.3.2 數(shù)據(jù)準(zhǔn)備 40
4.3.3 模型測(cè)試 42
4.3.4 模型改進(jìn) 45
4.4 樸素貝葉斯方法的總結(jié)以及延伸應(yīng)用 48
第5章 MCMC方法及生物案例分析 49
5.1 MCMC理論介紹 49
5.1.1 馬氏鏈 49
5.1.2 蒙特卡羅方法 50
5.1.3 MCMC方法 51
5.1.4 Metropolis-Hastings算法 51
5.1.5 獨(dú)立鏈 52
5.1.6 隨機(jī)游動(dòng)鏈 52
5.1.7 Gibbs抽樣 53
5.1.8 鏈的診斷 53
5.2 癌細(xì)胞分裂實(shí)例介紹 53
5.2.1 結(jié)腸癌細(xì)胞背景介紹 53
5.2.2 案例分析 54
5.2.3 MCMC方法總結(jié)以及延伸應(yīng)用 56
第6章 聚類分析及銀行信用畫像 58
6.1 通過客戶數(shù)據(jù)分類建立銀行信貸標(biāo)準(zhǔn) 58
6.2 無監(jiān)督學(xué)習(xí)之聚類分析 59
6.2.1 距離:聚類的基礎(chǔ) 60
6.2.2 K-均值聚類 61
6.2.3 均值遷移聚類 63
6.2.4 基于密度的聚類方法 65
6.2.5 聚類方法的對(duì)比與評(píng)價(jià) 67
6.3 用聚類方法對(duì)銀行信貸質(zhì)量分類 68
6.3.1 分析框架 68
6.3.2 數(shù)據(jù)準(zhǔn)備 69
6.3.3 模型初試 72
6.3.4 模型改進(jìn) 76
6.4 聚類分析總結(jié)以及延伸應(yīng)用 81
第7章 基于隨機(jī)森林模型的高頻交易訂單結(jié)構(gòu)分析與價(jià)格變動(dòng)預(yù)測(cè) 82
7.1 采用隨機(jī)森林模型做高頻交易 82
7.2 隨機(jī)森林模型介紹 83
7.2.1 決策樹 83
7.2.2 信息熵 84
7.2.3 隨機(jī)森林算法 85
7.2.4 OOB方法 86
7.2.5 參數(shù)選擇概述 86
7.3 高頻交易訂單結(jié)構(gòu)信息挖掘 87
7.3.1 分析框架 87
7.3.2 數(shù)據(jù)清洗 87
7.3.3 模型初試 91
7.3.4 模型改進(jìn) 94
7.4 隨機(jī)森林方法總結(jié)以及延伸應(yīng)用 96
第8章 基于Xgboost的汽車行業(yè)供需預(yù)測(cè) 97
8.1 梯度提升與Xgboost 97
8.1.1 GB 97
8.1.2 GBDT 98
8.1.3 Xgboost 98
8.1.4 分布式Xgboost的設(shè)計(jì)理念 99
8.2 汽車行業(yè)案例 100
8.2.1 汽車案例的行業(yè)分析 100
8.2.2 數(shù)據(jù)預(yù)處理 101
8.2.3 Xgboost模型訓(xùn)練 103
8.2.4 結(jié)果展示 104
8.3 Xgboost在汽車行業(yè)應(yīng)用的案例評(píng)價(jià)以及延伸應(yīng)用 105
第9章 支持向量機(jī)原理及在投資擇時(shí)中的運(yùn)用 106
9.1 通過時(shí)機(jī)選擇研究金融市場(chǎng)的買賣 106
9.2 SVM介紹 106
9.2.1 SVM是什么 106
9.2.2 線性分類器 108
9.2.3 核函數(shù) 109
9.3 在 Python中使用SVM 111
9.4 量化投資中的應(yīng)用——使用SVM進(jìn)行期貨擇時(shí) 113
9.4.1 技術(shù)指標(biāo)擇時(shí)背景 113
9.4.2 SVM股指期貨擇時(shí)策略 114
9.4.3 SVM擇時(shí)策略結(jié)果分析 115
9.4.4 SVM擇時(shí)策略優(yōu)化改進(jìn) 118
9.5 SVM擇時(shí)總結(jié)以及延伸應(yīng)用 118
第10章 基于LDA模型的電商產(chǎn)品評(píng)論主題分析 119
10.1 通過文本信息調(diào)研獲得用戶評(píng)價(jià)分析 119
10.1.1 文本挖掘 119
10.1.2 LDA模型 119
10.2 調(diào)研文本的數(shù)據(jù)處理 120
10.2.1 數(shù)據(jù)來源 120
10.2.2 文本評(píng)論分詞 120
10.2.3 情感分析 121
10.3 LDA主題模型介紹 121
10.3.1 模型介紹 121
10.3.2 模型參數(shù)估計(jì) 122
10.3.3 模型的評(píng)價(jià) 123
10.4 LDA模型的算法 124
10.5 電商產(chǎn)品評(píng)價(jià)分析 125
10.5.1 結(jié)果展示 125
10.5.2 模型的不足和改進(jìn) 126
10.6 LDA模型總結(jié)以及延伸應(yīng)用 127
第11章 LSTM神經(jīng)網(wǎng)絡(luò)及糖尿病知識(shí)圖譜構(gòu)建 128
11.1 基于神經(jīng)網(wǎng)絡(luò)的糖尿病知識(shí)圖譜構(gòu)建 128
11.1.1 自然語言處理 128
11.1.2 實(shí)體識(shí)別 128
11.1.3 糖尿病文本數(shù)據(jù)集介紹 129
11.2 BiLSTM+CRF算法理論介紹 129
11.2.1 RNN 129
11.2.2 LSTM 131
11.2.3 BiLSTM 133
11.2.4 CRF 134
11.3 BiLSTM+CRF模型評(píng)價(jià) 134
11.3.1 獲得上下文信息 134
11.3.2 考慮到輸出規(guī)則 134
11.4 糖尿病知識(shí)圖譜構(gòu)建過程 135
11.4.1 BiLSTM+CRF模型框架分析 135
11.4.2 數(shù)據(jù)處理 136
11.4.3 模型初試 141
11.4.4 BiLSTM+CRF模型改進(jìn) 144
第12章 卷積神經(jīng)網(wǎng)絡(luò)在人臉識(shí)別中的應(yīng)用 145
12.1 人臉識(shí)別技術(shù)的最新發(fā)展 145
12.2 基于卷積神經(jīng)網(wǎng)絡(luò)的MINST手寫數(shù)字識(shí)別 145
12.2.1 卷積神經(jīng)網(wǎng)絡(luò) 145
12.2.2 MINST手寫數(shù)字識(shí)別 146
12.2.3 卷積層 146
12.2.4 池化層 147
12.2.5 全連接層 147
12.2.6 代碼:MINST手寫數(shù)字識(shí)別的Keras實(shí)現(xiàn) 147
12.2.7 數(shù)據(jù)預(yù)處理 148
12.2.8 模型定義 149
12.2.9 模型訓(xùn)練 150
12.2.10 效果評(píng)估 150
12.2.11 模型預(yù)測(cè) 150
12.2.12 總結(jié) 150
12.3 通過FaceNet網(wǎng)絡(luò)結(jié)構(gòu)實(shí)現(xiàn)人臉識(shí)別 151
12.3.1 FaceNet網(wǎng)絡(luò)結(jié)構(gòu) 151
12.3.2 人臉識(shí)別的案例介紹 152
12.3.3 案例準(zhǔn)備 152
12.3.4 人臉檢測(cè) 152
12.3.5 人臉識(shí)別 154
12.4 卷積神經(jīng)網(wǎng)絡(luò)總結(jié)和延伸應(yīng)用 155
參考文獻(xiàn) 156
彩圖