基于機(jī)器學(xué)習(xí)的數(shù)據(jù)缺失值填補(bǔ):理論與方法
定 價(jià):79 元
叢書名:智能系統(tǒng)與技術(shù)叢書
- 作者:賴曉晨 張立勇 劉輝 吳霞
- 出版時(shí)間:2020/9/1
- ISBN:9787111663058
- 出 版 社:機(jī)械工業(yè)出版社
- 中圖法分類:TP181
- 頁碼:
- 紙張:膠版紙
- 版次:1
- 開本:16K
內(nèi)容介紹
這是一部講解如何基于機(jī)器學(xué)習(xí)技術(shù)實(shí)現(xiàn)數(shù)據(jù)缺失值填補(bǔ)的專著,與傳統(tǒng)的基于統(tǒng)計(jì)學(xué)的缺失值填補(bǔ)方法相比,效率上得到了較大的提升。作者基于多年的研究和實(shí)踐成果,創(chuàng)新性地提出了基于神經(jīng)網(wǎng)絡(luò)的缺失值填補(bǔ)方法和基于TS模型的缺失值填補(bǔ)方法。
全書共8章,可分為4個(gè)部分。
第壹部分(第1~3章):首先介紹缺失值填補(bǔ)領(lǐng)域的缺失數(shù)據(jù)機(jī)制、基本概念、性能度量等基礎(chǔ)知識(shí),隨后詳細(xì)闡述目前基于統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)的缺失值填補(bǔ)理論與方法。
第二部分(第4~5章):對目前神經(jīng)網(wǎng)絡(luò)在缺失值填補(bǔ)領(lǐng)域的研究成果進(jìn)行歸納總結(jié),并從網(wǎng)絡(luò)模型、填補(bǔ)方案角度闡述神經(jīng)網(wǎng)絡(luò)填補(bǔ)方法的設(shè)計(jì)及應(yīng)用。
第三部分(第6~7章):詳細(xì)介紹面向不完整數(shù)據(jù)的TS建模過程,隨后通過特征選擇算法處理TS建模中的特征冗余問題,并從前提參數(shù)優(yōu)化和結(jié)論參數(shù)優(yōu)化兩個(gè)角度改進(jìn)TS模型。
第四部分(第8章):以缺失值填補(bǔ)方法在我國貧困問題研究中的應(yīng)用為例,展現(xiàn)缺失值填補(bǔ)方法的現(xiàn)實(shí)意義。
前言
第1章 緒論 1
1.1 缺失值填補(bǔ)的背景與意義 1
1.2 缺失值填補(bǔ)方法的研究現(xiàn)狀概述 3
1.2.1 基于統(tǒng)計(jì)學(xué)的缺失值填補(bǔ)方法 3
1.2.2 基于機(jī)器學(xué)習(xí)的缺失值填補(bǔ)方法 4
1.3 缺失值填補(bǔ)的應(yīng)用 7
1.4 本章小結(jié) 10
參考文獻(xiàn) 11
第2章 缺失數(shù)據(jù)的處理方法 14
2.1 數(shù)據(jù)缺失機(jī)制 14
2.1.1 完全隨機(jī)缺失 15
2.1.2 隨機(jī)缺失 15
2.1.3 非隨機(jī)缺失 16
2.2 缺失數(shù)據(jù)的處理 17
2.2.1 不做處理 17
2.2.2 不完整樣本刪除 19
2.2.3 缺失值填補(bǔ) 20
2.3 缺失值填補(bǔ)概述 22
2.3.1 基本概念 22
2.3.2 方法分類 24
2.3.3 性能度量 26
2.4 本章小結(jié) 29
參考文獻(xiàn) 29
第3章 缺失值填補(bǔ)方法 31
3.1 基于樣本間相似度的填補(bǔ)方法 31
3.1.1 均值填補(bǔ)法 31
3.1.2 熱平臺(tái)填補(bǔ)法 34
3.1.3 K最近鄰填補(bǔ)法 36
3.1.4 基于聚類的填補(bǔ)方法 39
3.2 基于屬性間相關(guān)性的填補(bǔ)方法 46
3.2.1 基于線性回歸的填補(bǔ)方法 46
3.2.2 基于非線性回歸的填補(bǔ)方法 51
3.2.3 基于神經(jīng)網(wǎng)絡(luò)的填補(bǔ)方法 54
3.3 基于參數(shù)估計(jì)的期望最大化填補(bǔ)方法 60
3.3.1 參數(shù)估計(jì)法 60
3.3.2 期望最大化填補(bǔ)法 63
3.4 針對缺失數(shù)據(jù)不確定性的填補(bǔ)方法 66
3.4.1 多重填補(bǔ)法 67
3.4.2 基于證據(jù)理論的填補(bǔ)方法 72
3.5 本章小結(jié) 78
參考文獻(xiàn) 79
第4章 面向不完整數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)填補(bǔ)方法 81
4.1 基于自組織映射網(wǎng)絡(luò)的填補(bǔ)方法 81
4.1.1 自組織映射網(wǎng)絡(luò)理論 81
4.1.2 自組織映射網(wǎng)絡(luò)的缺失值處理 85
4.2 基于單層感知機(jī)的填補(bǔ)方法 87
4.2.1 單層感知機(jī)理論 87
4.2.2 傳統(tǒng)單層感知機(jī)的改進(jìn) 88
4.2.3 單層感知機(jī)填補(bǔ)模型 89
4.3 基于多層感知機(jī)的填補(bǔ)方法 91
4.3.1 多層感知機(jī)理論 91
4.3.2 基于多層感知機(jī)集群的填補(bǔ)方法 93
4.3.3 基于多層感知機(jī)簡化集群的填補(bǔ)方法 95
4.4 基于自編碼器及其變體的填補(bǔ)方法 96
4.4.1 基于自編碼器的填補(bǔ)法 97
4.4.2 基于徑向基函數(shù)自編碼器的填補(bǔ)法 99
4.4.3 基于廣義回歸自編碼器的填補(bǔ)法 102
4.4.4 基于對偶傳播自編碼器的填補(bǔ)法 104
4.4.5 基于極限學(xué)習(xí)機(jī)自編碼器的填補(bǔ)法 106
4.5 面向不完整數(shù)據(jù)的屬性關(guān)聯(lián)型神經(jīng)元建模與填補(bǔ)方法 107
4.5.1 基于去跟蹤自編碼器的填補(bǔ)法 108
4.5.2 基于關(guān)聯(lián)增強(qiáng)型自編碼器的填補(bǔ)法 112
4.5.3 基于多任務(wù)學(xué)習(xí)的填補(bǔ)方法 114
4.6 典型神經(jīng)網(wǎng)絡(luò)填補(bǔ)模型實(shí)驗(yàn) 117
4.6.1 實(shí)驗(yàn)設(shè)計(jì) 118
4.6.2 不同網(wǎng)絡(luò)模型的填補(bǔ)精度 120
4.6.3 自編碼器的自跟蹤性 121
4.6.4 去跟蹤自編碼器的去跟蹤性 123
4.7 本章小結(jié) 124
參考文獻(xiàn) 124
第5章 神經(jīng)網(wǎng)絡(luò)填補(bǔ)方法的優(yōu)化設(shè)計(jì) 127
5.1 面向不完整數(shù)據(jù)的代價(jià)函數(shù) 127
5.2 兩階段式填補(bǔ)方案 131
5.2.1 訓(xùn)練階段 132
5.2.2 填補(bǔ)階段 135
5.3 融合式填補(bǔ)方案 143
5.3.1 基于缺失值變量的神經(jīng)網(wǎng)絡(luò)動(dòng)態(tài)填補(bǔ)方案 143
5.3.2 缺失值變量與模型參數(shù)的動(dòng)態(tài)更新 144
5.3.3 時(shí)間復(fù)雜度 147
5.4 典型神經(jīng)網(wǎng)絡(luò)填補(bǔ)方案實(shí)驗(yàn) 149
5.4.1 實(shí)驗(yàn)設(shè)計(jì) 149
5.4.2 不同填補(bǔ)方案的填補(bǔ)精度 152
5.4.3 MVPT填補(bǔ)方案的收斂性 154
5.5 本章小結(jié) 155
參考文獻(xiàn) 156
第6章 基于TS建模的非線性回歸填補(bǔ)法 157
6.1 模糊數(shù)學(xué)基礎(chǔ) 157
6.1.1 模糊數(shù)學(xué)與模糊集合 157
6.1.2 模糊數(shù)學(xué)在缺失值填補(bǔ)中的應(yīng)用 158
6.2 TS模型 159
6.2.1 TS模型基本結(jié)構(gòu) 159
6.2.2 TS模型研究與應(yīng)用現(xiàn)狀 160
6.3 基于TS模型的填補(bǔ)方法 163
6.3.1 基于TS模型的填補(bǔ)方法概述 163
6.3.2 前提參數(shù)獲取 165
6.3.3 結(jié)論參數(shù)獲取 168
6.3.4 缺失值填補(bǔ) 169
6.4 基于特征選擇的TS模型填補(bǔ)法 170
6.4.1 特征選擇算法概述 170
6.4.2 基于特征選擇的TS模型填補(bǔ)法 177
6.5 TS模型填補(bǔ)方法實(shí)驗(yàn) 178
6.5.1 實(shí)驗(yàn)設(shè)計(jì) 178
6.5.2 TS模型與回歸模型的填補(bǔ)效果對比 179
6.5.3 特征選擇對TS模型擬合精度的影響 181
6.5.4 特征選擇對TS模型填補(bǔ)精度的影響 183
6.6 本章小結(jié) 186
參考文獻(xiàn) 186
第7章 TS模型填補(bǔ)方法的優(yōu)化設(shè)計(jì) 188
7.1 面向類不均衡數(shù)據(jù)的TS模型優(yōu)化 188
7.1.1 TS模型中的FCM算法 188
7.1.2 FCM算法存在的問題 190
7.1.3 DPC算法 192
7.1.4 類不均衡數(shù)據(jù)的MDF算法 195
7.1.5 MDF算法實(shí)驗(yàn) 196
7.2 基于交替學(xué)習(xí)策略的TS模型填補(bǔ)方法 204
7.2.1 TS結(jié)論參數(shù)與填補(bǔ)值的交替學(xué)習(xí)策略 206
7.2.2 交替學(xué)習(xí)策略的迭代收斂性 208
7.2.3 交替學(xué)習(xí)策略下線性回歸填補(bǔ)法實(shí)驗(yàn) 209
7.2.4 交替學(xué)習(xí)策略下TS模型填補(bǔ)法實(shí)驗(yàn) 210
7.3 本章小結(jié) 212
參考文獻(xiàn) 212
第8章 基于缺失值填補(bǔ)的中國貧困家庭特征分析 213
8.1 精準(zhǔn)扶貧過程中的數(shù)據(jù)缺失問題 213
8.1.1 我國貧困問題研究 213
8.1.2 中國家庭追蹤調(diào)查中的數(shù)據(jù)缺失問題 214
8.2 CFPS數(shù)據(jù)集缺失值填補(bǔ) 216
8.2.1 基于去跟蹤自編碼器的動(dòng)態(tài)缺失值填補(bǔ) 216
8.2.2 缺失值填補(bǔ)精度 217
8.3 貧困家庭識(shí)別 219
8.3.1 多維貧困測度 219
8.3.2 貧困的維度指標(biāo)及臨界剝奪值 220
8.3.3 基于層次分析法的多維貧困指標(biāo)權(quán)重計(jì)算 223
8.3.4 CFPS2016數(shù)據(jù)集的多維貧困家庭識(shí)別 227
8.4 基于聚類算法的貧困家庭類別劃分 229
8.4.1 層次聚類算法 229
8.4.2 貧困家庭聚類 230
8.5 貧困家庭典型特征分析 232
8.5.1 多重聚類特征選擇算法 232
8.5.2 貧困家庭典型特征選擇 233
8.6 本章小結(jié) 235
參考文獻(xiàn) 236