機(jī)器學(xué)習(xí):從基礎(chǔ)理論到典型算法(原書第2版)
定 價(jià):119 元
叢書名:智能科學(xué)與技術(shù)叢書
- 作者:[美]梅爾亞·莫里,[美]阿夫欣·羅斯塔米扎達(dá)爾,[美]阿米特·塔爾沃卡爾
- 出版時(shí)間:2022/7/1
- ISBN:9787111708940
- 出 版 社:機(jī)械工業(yè)出版社
- 中圖法分類:TP181
- 頁(yè)碼:
- 紙張:膠版紙
- 版次:
- 開(kāi)本:16開(kāi)
本書是機(jī)器學(xué)習(xí)領(lǐng)域內(nèi)一部具有里程碑意義的著作。包括哥倫比亞大學(xué)、北京大學(xué)在內(nèi)的多個(gè)國(guó)內(nèi)外名校均有以該書為基礎(chǔ)開(kāi)設(shè)的研究生課程。全書內(nèi)容豐富,視野寬闊,深入淺出地介紹了目前機(jī)器學(xué)習(xí)重要的理論和關(guān)鍵的算法。
本書是關(guān)于機(jī)器學(xué)習(xí)的概述,適合作為該領(lǐng)域?qū)W生和研究人員的教科書。本書涵蓋機(jī)器學(xué)習(xí)領(lǐng)域的基本內(nèi)容,并且提供討論及檢驗(yàn)算法合理性所必需的理論基礎(chǔ)和概念工具。不僅如此,本書還描述了應(yīng)用相關(guān)算法時(shí)需要考慮的若干關(guān)鍵問(wèn)題。
本書旨在介紹最新的理論和概念,并且對(duì)于相對(duì)先進(jìn)的結(jié)果給出簡(jiǎn)要的證明。總體而言,我們盡可能使全書敘述簡(jiǎn)潔。盡管如此,我們也會(huì)討論機(jī)器學(xué)習(xí)中出現(xiàn)的一些重要且復(fù)雜的主題,指出若干開(kāi)放的研究問(wèn)題。對(duì)于那些常常與其他主題合并或者未引起足夠關(guān)注的主題,本書將單獨(dú)著重討論,例如,將多分類、排序和回歸分別用一章來(lái)講解。
盡管本書覆蓋機(jī)器學(xué)習(xí)中很多重要的主題,但是出于簡(jiǎn)略且因目前缺乏針對(duì)一些方法的堅(jiān)實(shí)的理論保證,未能覆蓋圖模型和神經(jīng)網(wǎng)絡(luò)這兩個(gè)重要主題。
本書主要面向機(jī)器學(xué)習(xí)、統(tǒng)計(jì)和其他相關(guān)領(lǐng)域的學(xué)生與研究人員,適合作為研究生和高年級(jí)本科生課程的教科書,或者學(xué)術(shù)研討會(huì)的參考資料。本書前三四章為后續(xù)材料奠定理論基礎(chǔ),第6章引入一些被后面章節(jié)廣泛使用的概念來(lái)完善理論,第13章與第12章密切相關(guān),而其余各章大多自成體系。我們?cè)诿空伦詈蠼o出一套習(xí)題,并單獨(dú)給出完整的解答。
我們假定本書的讀者熟悉線性代數(shù)、概率和算法分析的基本概念。但是,為了進(jìn)一步輔助學(xué)習(xí),我們?cè)诟戒浿袝?huì)簡(jiǎn)要回顧線性代數(shù)和概率的相關(guān)知識(shí),給出凸優(yōu)化和信息論的簡(jiǎn)介,并且匯總本書分析和討論中常用的集中不等式。
不少著作在介紹機(jī)器學(xué)習(xí)時(shí)從貝葉斯角度或者核方法等特定主題具體展開(kāi),而本書的不同之處在于提供了適用于多個(gè)機(jī)器學(xué)習(xí)主題和領(lǐng)域的統(tǒng)一介紹。此外,本書的特色還在于對(duì)機(jī)器學(xué)習(xí)理論基礎(chǔ)的深入剖析,并給出詳細(xì)的證明。
這是本書的第2版,我們對(duì)全書內(nèi)容進(jìn)行了更新。主要修改之處包括:書寫風(fēng)格調(diào)整、示意圖新增、表述簡(jiǎn)化、內(nèi)容補(bǔ)充(特別是第6章和第17章)、章節(jié)新增等。具體而言,我們?cè)黾恿艘徽聛?lái)介紹模型選擇(第4章)這一重要主題,對(duì)上一版中的相關(guān)內(nèi)容進(jìn)行了拓展。我們也增加了兩個(gè)全新的章節(jié)分別介紹機(jī)器學(xué)習(xí)中的兩個(gè)重要主題:最大熵模型(第12章)和條件最大熵模型(第13章)。我們還對(duì)附錄進(jìn)行了大幅調(diào)整。在附錄B中,詳述了凸優(yōu)化中的Fenchel對(duì)偶性。在附錄D中,補(bǔ)充介紹了大量相關(guān)的集中不等式。在附錄E中,新增了關(guān)于信息論的內(nèi)容。此外,這一版對(duì)每章的習(xí)題和解答也進(jìn)行了大量的更新。
這里所介紹的大部分材料來(lái)自機(jī)器學(xué)習(xí)研究生課程(機(jī)器學(xué)習(xí)基礎(chǔ)),在過(guò)去14年中,該課程由本書第一作者在紐約大學(xué)庫(kù)朗數(shù)學(xué)科學(xué)研究所講授。本書極大地受益于該課程的學(xué)生、朋友、同事和研究人員所提出的寶貴意見(jiàn)與建議,在此對(duì)他們深表感激。
我們特別感謝Corinna Cortes和Yishay Mansour對(duì)于本書第1版內(nèi)容的設(shè)計(jì)與組織提出的許多重要建議,包括大量詳細(xì)的注釋。我們充分考慮了他們的建議,這對(duì)于改進(jìn)全書幫助很大。此外,還要感謝Yishay Mansour用本書的最初版本進(jìn)行教學(xué),并向我們積極反饋。
我們還要感謝來(lái)自學(xué)術(shù)界和企業(yè)界研究實(shí)驗(yàn)室的同事與朋友所給予的討論、建議和貢獻(xiàn),他們是:Jacob Abernethy、Cyril Allauzen、Kareem Amin、Stephen Boyd、Aldo Corbisiero、Giulia DeSalvo、Claudio Gentile、Spencer Greenberg、Lisa Hellerstein、Sanjiv Kumar、Vitaly Kuznetsov、Ryan McDonald、Andrès Muoz Medina、Tyler Neylon、Peter Norvig、Fernando Pereira、Maria Pershina、Borja de Balle Pigem、Ashish Rastogi、Michael Riley、Dmitry Storcheus、Ananda Theertha Suresh、Umar Syed、Csaba Szepesvri、Toshiyuki Tanaka、Eugene Weinstein、Jason Weston、Scott Yang和Ningshan Zhang。
最后,我們還要感謝MIT出版社對(duì)本書所給予的幫助和支持。
譯者序
前言
第1章 引言1
1.1 什么是機(jī)器學(xué)習(xí)1
1.2 機(jī)器學(xué)習(xí)可以解決什么樣的問(wèn)題2
1.3 一些典型的學(xué)習(xí)任務(wù)2
1.4 學(xué)習(xí)階段3
1.5 學(xué)習(xí)情境4
1.6 泛化5
第2章 PAC學(xué)習(xí)框架7
2.1 PAC學(xué)習(xí)模型7
2.2 對(duì)有限假設(shè)集的學(xué)習(xí)保證——一致的情況11
2.3 對(duì)有限假設(shè)集的學(xué)習(xí)保證——不一致的情況14
2.4 泛化性16
2.4.1 確定性與隨機(jī)性情境16
2.4.2 貝葉斯誤差與噪聲17
2.5 文獻(xiàn)評(píng)注18
2.6 習(xí)題18
第3章 Rademacher復(fù)雜度和VC-維23
3.1 Rademacher復(fù)雜度23
3.2 生長(zhǎng)函數(shù)27
3.3 VC-維28
3.4 下界34
3.5 文獻(xiàn)評(píng)注38
3.6 習(xí)題39
第4章 模型選擇46
4.1 估計(jì)誤差和近似誤差46
4.2 經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化47
4.3 結(jié)構(gòu)風(fēng)險(xiǎn)最小化47
4.4 交叉驗(yàn)證50
4.5 n-折交叉驗(yàn)證52
4.6 基于正則化的算法53
4.7 凸替換項(xiàng)損失54
4.8 文獻(xiàn)評(píng)注57
4.9 習(xí)題58
第5章 支持向量機(jī)59
5.1 線性分類59
5.2 可分情況60
5.2.1 原始優(yōu)化問(wèn)題60
5.2.2 支持向量61
5.2.3 對(duì)偶優(yōu)化問(wèn)題62
5.2.4 留一法63
5.3 不可分情況64
5.3.1 原始優(yōu)化問(wèn)題65
5.3.2 支持向量66
5.3.3 對(duì)偶優(yōu)化問(wèn)題67
5.4 間隔理論67
5.5 文獻(xiàn)評(píng)注74
5.6 習(xí)題74
第6章 核方法77
6.1 引言77
6.2 正定對(duì)稱核79
6.2.1 定義79
6.2.2 再生核希爾伯特空間81
6.2.3 性質(zhì)82
6.3 基于核的算法85
6.3.1 具有PDS核的SVM85
6.3.2 表示定理86
6.3.3 學(xué)習(xí)保證87
6.4 負(fù)定對(duì)稱核88
6.5 序列核90
6.5.1 加權(quán)轉(zhuǎn)換器90
6.5.2 有理核93
6.6 近似核特征映射96
6.7 文獻(xiàn)評(píng)注100
6.8 習(xí)題100
第7章 boosting106
7.1 引言106
7.2 AdaBoost算法107
7.2.1 經(jīng)驗(yàn)誤差的界109
7.2.2 與坐標(biāo)下降的關(guān)系110
7.2.3 實(shí)踐中的使用方式112
7.3 理論結(jié)果113
7.3.1 基于VC-維的分析113
7.3.2 L1-幾何間隔113
7.3.3 基于間隔的分析115
7.3.4 間隔最大化118
7.3.5 博弈論解釋119
7.4 L1-正則化120
7.5 討論122
7.6 文獻(xiàn)評(píng)注122
7.7 習(xí)題124
第8章 在線學(xué)習(xí)129
8.1 引言129
8.2 有專家建議的預(yù)測(cè)130
8.2.1 錯(cuò)誤界和折半算法130
8.2.2 加權(quán)多數(shù)算法131
8.2.3 隨機(jī)加權(quán)多數(shù)算法132
8.2.4 指數(shù)加權(quán)平均算法135
8.3 線性分類137
8.3.1 感知機(jī)算法137
8.3.2 Winnow算法143
8.4 在線到批處理的轉(zhuǎn)換145
8.5 與博弈論的聯(lián)系147
8.6 文獻(xiàn)評(píng)注148
8.7 習(xí)題149
第9章 多分類153
9.1 多分類問(wèn)題153
9.2 泛化界154
9.3 直接型多分類算法159
9.3.1 多分類SVM159
9.3.2 多分類boosting算法160
9.3.3 決策樹(shù)161
9.4 類別分解型多分類算法164
9.4.1 一對(duì)多164
9.4.2 一對(duì)一165
9.4.3 糾錯(cuò)輸出編碼166
9.5 結(jié)構(gòu)化預(yù)測(cè)算法168
9.6 文獻(xiàn)評(píng)注169
9.7 習(xí)題170
第10章 排序172
10.1 排序問(wèn)題172
10.2 泛化界173
10.3 使用SVM進(jìn)行排序175
10.4 RankBoost176
10.4.1 經(jīng)驗(yàn)誤差界178
10.4.2 與坐標(biāo)下降的關(guān)系179
10.4.3 排序問(wèn)題集成算法的間隔界180
10.5 二部排序181
10.5.1 二部排序中的boosting算法182
10.5.2 ROC曲線下面積184
10.6 基于偏好的情境184
10.6.1 兩階段排序問(wèn)題185
10.6.2 確定性算法186
10.6.3 隨機(jī)性算法187
10.6.4 關(guān)于其他損失函數(shù)的擴(kuò)展188
10.7 其他的排序準(zhǔn)則189
10.8 文獻(xiàn)評(píng)注189
10.9 習(xí)題190
第11章 回歸191
11.1 回歸問(wèn)題191
11.2 泛化界192
11.2.1 有限假設(shè)集192
11.2.2 Rademacher復(fù)雜度界193
11.2.3 偽維度界194
11.3 回歸算法196
11.3.1 線性回歸196
11.3.2 核嶺回歸198
11.3.3 支持向量回歸201
11.3.4 Lasso204
11.3.5 組范數(shù)回歸算法206
11.3.6 在線回歸算法207
11.4 文獻(xiàn)評(píng)注207
11.5 習(xí)題208
第12章 最大熵模型210
12.1 密度估計(jì)問(wèn)題210
12.1.1 最大似然解210
12.1.2 最大后驗(yàn)解211
12.2 添加特征的密度估計(jì)問(wèn)題212
12.3 最大熵準(zhǔn)則212
12.4 最大熵模型簡(jiǎn)介213
12.5 對(duì)偶問(wèn)題213
12.6 泛化界216
12.7 坐標(biāo)下降算法217
12.8 拓展218
12.9 L2-正則化220
12.10 文獻(xiàn)評(píng)注222
12.11 習(xí)題223
第13章 條件最大熵模型224
13.1 學(xué)習(xí)問(wèn)題224
13.2 條件最大熵準(zhǔn)則224
13.3 條件最大熵模型簡(jiǎn)介225
13.4 對(duì)偶問(wèn)題226
13.5 性質(zhì)227
13.5.1 優(yōu)化問(wèn)題227
13.5.2 特征向量228
13.5.3 預(yù)測(cè)228
13.6 泛化界228
13.7 邏輯回歸231
13.7.1 優(yōu)化問(wèn)題231
13.7.2 邏輯模型231
13.8 L2-正則232
13.9 對(duì)偶定理的證明23