本書詳細(xì)介紹了強(qiáng)化學(xué)習(xí)的理論推導(dǎo)、算法細(xì)節(jié)。全書共12章,包括強(qiáng)化學(xué)習(xí)概述、馬爾可夫決策過程、退化的強(qiáng)化學(xué)習(xí)問題、環(huán)境已知的強(qiáng)化學(xué)習(xí)問題、基于價值的強(qiáng)化學(xué)習(xí)算法、基于策略的強(qiáng)化學(xué)習(xí)算法、AC型算法、基于模型的強(qiáng)化學(xué)習(xí)算法等相關(guān)知識。本書系統(tǒng)性強(qiáng)、概念清晰,內(nèi)容簡明通俗。除了側(cè)重于理論推導(dǎo),本書還提供了許多便于讀者理解的例子,以及大量被實(shí)踐證明有效的算法技巧,旨在幫助讀者進(jìn)一步了解強(qiáng)化學(xué)習(xí)領(lǐng)域的相關(guān)知識,提升其現(xiàn)實(shí)中的工程能力。本書可作為高等院校數(shù)學(xué)、計算機(jī)、人工智能等相關(guān)專業(yè)的強(qiáng)化學(xué)習(xí)教材,但需要有機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等前置課程作為基礎(chǔ)。
余欣航,本科畢業(yè)于北京大學(xué)數(shù)學(xué)科學(xué)院,廣東交通數(shù)據(jù)中心算法主要負(fù)責(zé)人,using.ai早期合伙人,廣東聯(lián)合電子資深工程師,主要研究方向?yàn)闄C(jī)器學(xué)習(xí)、強(qiáng)化學(xué)習(xí)以及其在智能制造、智慧交通等領(lǐng)域的應(yīng)用?苹米骷遥碜鳛椤肚樵姂偾、《疑云龍影》、《一中攻防戰(zhàn)》等
第1章 緒論 1
1.1 強(qiáng)化學(xué)習(xí)是什么 1
1.2 強(qiáng)化學(xué)習(xí)的基本思想 3
1.2.1 從環(huán)境中產(chǎn)生數(shù)據(jù) 3
1.2.2 求解最優(yōu)策略 5
1.3 強(qiáng)化學(xué)習(xí)為什么重要 6
1.4 本書內(nèi)容介紹 9
參考文獻(xiàn) 10
第2章 馬爾可夫決策過程 11
2.1 馬爾可夫過程 11
2.2 馬爾可夫決策過程的定義 12
2.3 馬爾可夫過程與馬爾可夫決策過程的對比 15
2.4 馬爾可夫決策過程的分類 15
2.4.1 馬爾可夫決策過程是否發(fā)生退化 16
2.4.2 環(huán)境是否已知 17
2.4.3 環(huán)境的確定性與隨機(jī)性 18
2.4.4 馬爾可夫決策過程的時齊性 20
2.4.5 狀態(tài)與動作的連續(xù)性 22
*2.4.6 時間的連續(xù)性 23
2.4.7 小結(jié) 24
2.5 馬爾可夫決策過程的獎勵函數(shù) 25
思考題 26
參考文獻(xiàn) 27
第3章 退化的強(qiáng)化學(xué)習(xí)問題 28
3.1 盲盒售貨機(jī)問題 28
3.2 探索-利用困境 31
3.3 各種不同的探索策略 33
3.3.1 -貪心策略 33
3.3.2 玻爾茲曼探索策略 35
3.3.3 上置信界策略 36
3.4 總結(jié) 36
思考題 37
參考文獻(xiàn) 37
第4章 最優(yōu)控制 38
4.1 基于價值的思想 38
4.1.1 三連棋游戲策略 38
4.1.2 價值的定義 42
4.1.3 基于價值和基于策略 45
4.1.4 小結(jié) 46
思考題 47
4.2 動態(tài)規(guī)劃 47
4.2.1 策略迭代法 47
4.2.2 雅可比迭代法 48
4.2.3 值迭代法 50
4.2.4 軟提升 51
4.2.5 小結(jié) 53
思考題 54
4.3 LQR控制 55
4.3.1 基本LQR控制問題 55
4.3.2 LQR控制器 56
*4.3.3 環(huán)境隨機(jī)的LQR控制問題 59
4.3.4 iLQR控制器 61
4.3.5 實(shí)時規(guī)劃 63
4.3.6 小結(jié) 64
思考題 65
4.4 總結(jié) 65
參考文獻(xiàn) 66
第5章 基于價值的強(qiáng)化學(xué)習(xí) 68
5.1 Q-Learning 68
5.1.1 Q表格 69
5.1.2 產(chǎn)生數(shù)據(jù)集的方式:探索與利用 69
5.1.3 探索策略 71
5.1.4 使用訓(xùn)練數(shù)據(jù)的方法:經(jīng)驗(yàn)回放 73
思考題 74
5.2 Sarsa 74
5.2.1 基本Sarsa算法 74
5.2.2 同策略與異策略 76
5.2.3 n步Sarsa 77
5.2.4 -return算法 78
*5.2.5 n步Q-Learning 79
思考題 80
5.3 DQN及其變體 81
5.3.1 固定Q目標(biāo)結(jié)構(gòu) 81
5.3.2 雙重DQN 84
5.3.3 優(yōu)先回放機(jī)制 86
5.3.4 優(yōu)勢函數(shù) 88
5.3.5 Dueling DQN 90
*5.3.6 Rainbow 92
思考題 94
*5.4 NAF 94
*5.4.1 標(biāo)準(zhǔn)化優(yōu)勢函數(shù) 94
*5.4.2 NAF的訓(xùn)練 96
5.5 總結(jié):基于價值的強(qiáng)化學(xué)習(xí)算法 97
參考文獻(xiàn) 98
第6章 策略函數(shù)與策略梯度 100
6.1 策略函數(shù)與期望回報 100
6.2 無梯度方法 101
6.2.1 增強(qiáng)隨機(jī)搜索 102
6.2.2 交叉熵算法 104
6.2.3 進(jìn)化算法 104
6.3 策略梯度 106
6.3.1 策略網(wǎng)絡(luò)的構(gòu)造 106
6.3.2 策略梯度的計算 108
6.3.3 基本策略梯度算法 111
*6.3.4 動作連續(xù)的策略梯度 113
6.4 策略梯度的訓(xùn)練技巧 114
6.4.1 基準(zhǔn)法 114
6.4.2 經(jīng)驗(yàn)回放 116
6.4.3 探索策略 118
6.5 總結(jié) 119
思考題 120
參考文獻(xiàn) 121
第7章 AC算法 122
7.1 基本AC算法 122
7.1.1 AC算法的出發(fā)點(diǎn) 122
7.1.2 化簡策略梯度公式 123
7.1.3 AC算法的基本思想 126
7.1.4 單步更新與回合更新 128
思考題 129
7.2 AC算法的訓(xùn)練技巧 129
7.2.1 廣義優(yōu)勢函數(shù)估計 129
7.2.2 控制訓(xùn)練兩個網(wǎng)絡(luò)的步調(diào) 131
7.2.3 ACER 133
思考題 134
7.3 A3C與A2C 135
7.3.1 并行訓(xùn)練 135
7.3.2 A3C 137
7.3.3 A2C 140
思考題 141
參考文獻(xiàn) 141
第8章 AC型算法 143
8.1 自然梯度法 143
8.1.1 牛頓法 144
8.1.2 信賴域方法 146
8.1.3 近似點(diǎn)法 146
*8.1.4 自然策略梯度 147
8.2 TRPO與PPO算法 149
8.2.1 策略提升 149
8.2.2 TRPO算法 151
8.2.3 PPO算法 152
8.2.4 TRPO與PPO算法的訓(xùn)練技巧 155
8.2.5 小結(jié) 156
思考題 157
8.3 DDPG 157
8.3.1 動作連續(xù)問題的網(wǎng)絡(luò)結(jié)構(gòu) 158
8.3.2 從基于價值的角度理解DDPG算法 158
8.3.3 DDPG算法及訓(xùn)練技巧 159
8.3.4 確定策略下的策略梯度 162
8.3.5 從基于策略的角度理解DDPG算法 163
思考題 165
*8.4 Soft AC 165
8.5 總結(jié):基于策略的算法 168
8.5.1 基于價值和基于策略 169
8.5.2 偏差-方差取舍 170
8.5.3 策略的空間 172
8.5.4 訓(xùn)練數(shù)據(jù)的產(chǎn)生與使用 172
8.5.5 小結(jié) 173
參考文獻(xiàn) 174
第9章 基于模型的基本思想 175
9.1 MBRL概述 175
9.2 模型是什么 177
9.2.1 各種模型及其基本用法 178
9.2.2 更多的模型變體 179
9.2.3 模型的一些特點(diǎn) 180
*9.2.4 對模型的理解 185
思考題 188
9.3 如何使用黑盒模型 189
9.3.1 用黑盒模型增廣數(shù)據(jù) 189
9.3.2 權(quán)衡數(shù)據(jù)成本與準(zhǔn)確性 191
9.3.3 黑盒模型的其他用途 193
9.3.4 小結(jié) 194
思考題 194
9.4 如何使用白盒模型 195
9.4.1 用白盒模型輔助進(jìn)行策略優(yōu)化 195
9.4.2 用白盒模型解最優(yōu)控制 197
9.4.3 小結(jié) 199
思考題 199
參考文獻(xiàn) 200
第10章 基于模型的強(qiáng)化學(xué)習(xí)進(jìn)階 202
10.1 如何學(xué)習(xí)模型 202
10.1.1 讓學(xué)習(xí)更符合最終目標(biāo) 202
10.1.2 讓學(xué)習(xí)本身成為目標(biāo) 203
10.1.3 以學(xué)習(xí)作為唯一目標(biāo) 206
10.1.4 小結(jié) 209
思考題 209
10.2 世界模型 210
10.2.1 觀察 210
10.2.2 POMDP 212
10.2.3 為世界建模 214
10.2.4 Dreamer 218
思考題 220
10.3 實(shí)時規(guī)劃 221
10.3.1 實(shí)時規(guī)劃的基本思想 221
10.3.2 蒙特卡洛樹搜索 224
10.3.3 模型預(yù)測控制 230
思考題 233
10.4 MBRL算法思想總結(jié) 233
參考文獻(xiàn) 235
*第11章 連續(xù)時間的最優(yōu)控制 238
11.1 時間連續(xù)的最優(yōu)控制問題 238
11.2 H-J-B方程 239
11.2.1 連續(xù)時間的貝爾曼方程 239
*11.2.2 用H-J-B方程求解LQR控制問題 242
11.2.3 總結(jié):關(guān)于價值的方程 245
思考題 247
*11.3 變分原理 247
11.3.1 從有窮維空間到無窮維空間 247
11.3.2 變分問題 250
*11.3.3 歐拉-拉格朗日方程 252
*11.3.4 用變分法求解最優(yōu)控制問題 255
11.3.5 總結(jié):策略的最優(yōu)化 257
思考題 258
參考文獻(xiàn) 258
*第12章 其他強(qiáng)化學(xué)習(xí)相關(guān)內(nèi)容 259
12.1 獎勵函數(shù)的改造與混合 259
12.2 逆向強(qiáng)化學(xué)習(xí) 261
12.3 層次強(qiáng)化學(xué)習(xí) 262
12.4 離線強(qiáng)化學(xué)習(xí) 264
參考文獻(xiàn) 266