強化學習是機器學習的重要分支,是實現(xiàn)通用人工智能的重要途徑。本書介紹了強化學習在算法層面的快速發(fā)展,包括值函數(shù)、策略梯度、值分布建模等基礎算法,以及為了提升樣本效率產(chǎn)生的基于模型學習、探索與利用、多目標學習、層次化學習、技能學習等算法,以及一些新興領域,包括離線學習、表示學習、元學習等,旨在提升數(shù)據(jù)高效性和策略的泛化能力的算法,還介紹了應用領域中強化學習在智能控制、機器視覺、語言處理、醫(yī)療、推薦、金融等方面的相關知識。
本書深入淺出、結構清晰、重點突出,系統(tǒng)地闡述了強化學習的前沿算法和應用,適合從事人工智能、機器學習、優(yōu)化控制、機器人、游戲開發(fā)等工作的專業(yè)技術人員閱讀,還可作為計算機、人工智能、智能科學相關專業(yè)的研究生和高年級本科生的教材。
浙江大學吳飛教授作序推薦,悉尼科技大學教授、澳大利亞人工智能理事會理事長張成奇,哈爾濱工業(yè)大學教授、領軍人才劉挺,北京大學教授,ACM/IEEE Fellow鄧小鐵鼎力推薦;人工智能領域專家白辰甲、趙英男、郝建業(yè)、劉鵬、王震傾力編寫,強化學習的創(chuàng)新力作。
強化學習(Reinforcement Learning, RL)是機器學習的重要分支,被認為是實現(xiàn)通用人工智能(AI)的重要途徑。國家《新一代人工智能發(fā)展規(guī)劃》明確將強化學習列入亟須建立的新一代人工智能基礎理論體系的重要組成部分。在基于環(huán)境感知和深度特征提取的基礎上,強化學習側重解決決策問題。求解策略的過程非常類似于人類學習的過程,通過與環(huán)境的交互和試錯不斷改進自身策略,獲取更大的回報。強化學習與監(jiān)督學習方法的主要區(qū)別在于,強化學習是一個主動學習的過程,沒有特定的訓練數(shù)據(jù),智能體(Agent)需要在不斷地與環(huán)境交互的過程中獲得信息來用于自身策略的學習。一個典型的強化學習的應用是圍棋智能體,通過將輸贏定義為獎勵,智能體可以通過自我博弈來化獎勵,從而學習到復雜的策略。
近年來,包括算法層面和應用層面,整個強化學習領域都獲得了突飛猛進的發(fā)展。在算法層面,強化學習的研究領域逐步細分,向下延展為許多子問題。將Q學習和策略梯度法與深度網(wǎng)絡進行結合,發(fā)展出了可以在圖像觀測和連續(xù)控制任務中實際應用的策略學習方法;通過學習值函數(shù)分布,能夠建模值函數(shù)的分布,從而獲得環(huán)境的內(nèi)在隨機性;通過對環(huán)境模型的學習,可以利用環(huán)境模型在策略學習中有效提升樣本利用效率;通過增強策略的探索能力,使算法能夠解決稀疏獎勵下的策略學習問題。同時,將一般策略學習擴展為多目標策略、層次化策略,以及增加技能學習的模塊,能夠使算法應用于更為復雜的大規(guī)模任務。另外,一些新興的研究領域包括離線強化學習、表示學習、元強化學習等,旨在提升強化學習在交互困難的任務中的可用性,提升數(shù)據(jù)高效性和策略的泛化能力。在應用領域,強化學習已經(jīng)逐步在工業(yè)界落地,在包括游戲 AI、智能控制、機器視覺和語言處理等領域都有成功的應用案例。同時,在智慧醫(yī)療、搜索推薦和金融交易等領域也在不斷探索新的落地場景。
目前,強化學習的快速發(fā)展是令人振奮的。然而,強化學習也面臨很多現(xiàn)實的挑戰(zhàn),如樣本效率仍然較低,策略的可靠性較差,在安全性要求較高的場景中難以應用等。這些問題都在等待研究人員和從業(yè)者來逐步解決。衷心地希望各位讀者通過學習,也能加入到解決這些挑戰(zhàn)的行列中。本書將對以上所述的前沿算法和應用進行詳細介紹。通過學習本書,讀者可以理解強化學習前沿的算法和應用中的核心知識,構建較為完整的強化學習理論和實踐體系。
本書特色: 本書從經(jīng)典強化學習出發(fā),系統(tǒng)地闡述強化學習的前沿算法和應用。對于算法中的復雜理論,作者盡可能用通俗的語言闡述其基本原理。對于希望深入理解算法的讀者,本書也對理論進行了深層解釋,但是不理解這些內(nèi)容并不影響對方法的整體把握。每章的后一節(jié)將會集中展示本章方法的實用案例,并講解其核心的實現(xiàn)步驟。
讀者對象: 本書適合從事人工智能、機器學習、優(yōu)化控制、機器人、游戲開發(fā)等工作的專業(yè)技術人員閱讀,還可作為計算機、人工智能、智能科學相關專業(yè)的研究生和高年級本科生的教材。
閱讀本書: 第1~4章屬于前沿算法的基礎內(nèi)容,介紹強化學習的基本問題,基于值函數(shù)和基于策略的基本算法,該部分應當首先閱讀。第5~13章分別介紹特定的算法類別,讀者可以順序閱讀,也可以選擇自己感興趣的章節(jié)閱讀。第14~17章介紹前沿應用部分,其中每個應用可能包括幾種算法。建議讀者先閱讀前沿算法部分,再閱讀前沿應用部分。本書附錄部分包括學習資源和其余附加知識的介紹。
由于作者水平有限,書中錯漏之處在所難免,懇請讀者批評指正。
作者
白辰甲
上海人工智能實驗室青年研究員,博士畢業(yè)于哈爾濱工業(yè)大學計算學部,曾在加拿大多倫多大學聯(lián)合培養(yǎng),2022年獲哈工大優(yōu)秀博士論文獎。在高水平國際會議和期刊上發(fā)表論文20余篇,獲評機器學習頂會ICML 2021、ICLR 2022、NeurIPS 2022亮點論文。研究方向包括強化學習、博弈智能和具身智能。
趙英男
博士畢業(yè)于哈爾濱工業(yè)大學計算學部,曾在加拿大阿爾伯塔大學進行聯(lián)合培養(yǎng),主要研究方向為深度強化學習、表征學習等,在國際會議和期刊上發(fā)表多篇學術論文。
郝建業(yè)
天津大學智能與計算學部副教授,獲哈爾濱工業(yè)大學學士學位,香港中文大學博士學位,曾任MIT計算機科學與人工智能實驗室博士后研究員。研究方向為深度強化學習和多智能體系統(tǒng),近年在NeurIPS、ICML、ICLR、AAAI、IJCAI等人工智能領域知名會議和IEEE匯刊發(fā)表論文80余篇,出版專著2部。
劉鵬
哈爾濱工業(yè)大學教授,博士生導師,模式識別與智能系統(tǒng)研究中心主任。主要研究方向為圖像處理、模式識別、機器學習。發(fā)表學術論文50余篇,獲發(fā)明專利10余項,獲黑龍江省科技進步一等獎1項。
王震
西北工業(yè)大學教授,網(wǎng)絡空間安全學院黨委書記,國家保密學院常務副院長,Elected Member of Academia Europaea (EA), European Academy of Sciences and Arts (EASA),AAIA Fellow, 全球高被引科學家,國家杰青,國防創(chuàng)新團隊負責人。圍繞博弈智能,人工智能基礎理論,網(wǎng)絡空間智能對抗,在Nature Communications、PNAS、Science Advance、AAAI、NeurIPS、ICML、ICLR等發(fā)表系列成果,WoS引用2萬余次,編制完成行標5項。獲科學探索獎,中國青年五四獎章,、陜西省、學會科學技術獎一等獎等多個獎項。
序言
前言
第1章 強化學習簡介/
1.1從監(jiān)督學習到強化學習/
1.2強化學習的發(fā)展歷史/
1.3強化學習的研究范疇/
1.4強化學習的應用領域/
第2章 強化學習基礎知識/
2.1強化學習的核心概念/
2.2馬爾可夫性和決策過程/
2.3值函數(shù)和策略學習/
第3章 基于值函數(shù)的強化學習算法/
3.1深度Q學習的基本理論/
3.1.1深度Q網(wǎng)絡/
3.1.2經(jīng)驗池/
3.1.3目標網(wǎng)絡/
3.2深度Q學習的過估計/
3.2.1過估計的產(chǎn)生原因/
3.2.2Double Q-學習/
3.3深度Q學習的網(wǎng)絡改進和高效采樣/
3.3.1Dueling網(wǎng)絡/
3.3.2高效采樣/
3.4周期后序迭代Q學習/
3.5Q學習用于連續(xù)動作空間/
3.5.1基于并行結構的 Q學習/
3.5.2基于順序結構的Q學習/
3.6實例:使用值函數(shù)學習的Atari游戲/
3.6.1環(huán)境預處理/
3.6.2Q網(wǎng)絡的實現(xiàn)/
3.6.3Q學習的核心步驟/
第4章 策略梯度迭代的強化學習算法/
4.1REINFORCE 策略梯度/
4.1.1策略梯度的基本形式/
4.1.2降低策略梯度的方差/
4.2異步策略梯度法/
4.2.1引入優(yōu)勢函數(shù)/
4.2.2異步策略梯度/
4.3近端策略優(yōu)化法/
4.3.1裁剪的優(yōu)化目標/
4.3.2自適應的優(yōu)化目標/
4.4深度確定性策略梯度/
4.4.1critic學習/
4.4.2actor學習/
4.4.3拓展1:探索噪聲/
4.4.4拓展2:孿生DDPG/
4.5熵策略梯度/
4.5.1熵約束的基本原理/
4.5.2SAC算法/
4.6實例:使用策略梯度的Mujoco任務/
4.6.1actor-critic網(wǎng)絡實現(xiàn)/
4.6.2核心算法實現(xiàn)/
第5章 基于模型的強化學習方法/
5.1如何使用模型來進行強化學習/
5.2基于模型預測的規(guī)劃/
5.2.1隨機打靶法/
5.2.2集成概率軌跡采樣法/
5.2.3基于模型和無模型的混合算法/
5.2.4基于想象力的隱式規(guī)劃方法/
5.3黑盒模型的理論框架/
5.3.1隨機下界優(yōu)化算法/
5.3.2基于模型的策略優(yōu)化算法/
5.4白盒模型的使用/
5.4.1隨機值梯度算法/
5.4.2模型增強的actor-critic算法/
5.5實例:AlphaGo圍棋智能體/
5.5.1網(wǎng)絡結構介紹/
5.5.2蒙特卡羅樹搜索/
5.5.3總體訓練流程/
第6章 值分布式強化學習算法/
6.1離散分布投影的值分布式算法/
6.2分位數(shù)回歸的值分布式算法/
6.2.1分位數(shù)回歸/
6.2.2Wasserstein距離/
6.2.3QR-DQN算法/
6.2.4單調的分位數(shù)學習算法/
6.3隱式的值分布網(wǎng)絡/
6.4基于值分布的代價敏感學習/
6.4.1IQN中的代價敏感學習/
6.4.2基于IQN的actor-critic模型的代價敏感學習/
6.5實例:基于值分布的Q網(wǎng)絡實現(xiàn)/
6.5.1IQN模型構建/
6.5.2IQN損失函數(shù)/
第7章 強化學習中的探索算法/
7.1探索算法的分類/
7.2基于不確定性估計的探索/
7.2.1參數(shù)化后驗的算法思路/
7.2.2重采樣DQN/
7.3進行虛擬計數(shù)的探索/
7.3.1基于圖像生成模型的虛擬計數(shù)/
7.3.2基于哈希的虛擬計數(shù)/
7.4根據(jù)環(huán)境模型的探索/
7.4.1特征表示的學習/
7.4.2隨機網(wǎng)絡蒸餾/
7.4.3Never-Give-Up算法/
7.5實例:蒙特祖瑪復仇任務的探索/
7.5.1RND網(wǎng)絡結構/
7.5.2RND的訓練/
7.5.3RND用于探索/
第8章 多目標強化學習算法/
8.1以目標為條件的價值函數(shù)/
8.1.1熵HER/
8.1.2動態(tài)目標HER/
8.2監(jiān)督式的多目標學習/
8.2.1Hindsight模仿學習/
8.2.2加權監(jiān)督式多目標學習/
8.3推廣的多目標學習/
8.4實例:仿真機械臂的多目標抓取/
8.4.1多目標實驗環(huán)境/
8.4.2HER的實現(xiàn)方法/
8.4.3MEP的算法實現(xiàn)/
第9章 層次化強化學習算法/
9.1層次化學習的重要性/
9.2基于子目標的層次化學習/
9.2.1封建網(wǎng)絡的層次化學習/
9.2.2離策略修正的層次化學習/
9.2.3虛擬子目標的強化學習方法/
9.3基于技能的層次化學習/
9.3.1使用隨機網(wǎng)絡的層次化學習/
9.3.2共享分層的元學習方法/
9.4基于選項的層次化學習/
9.4.1option與半馬爾可夫決策過程/
9.4.2option-critic結構/
9.5實例:層次化學習螞蟻走迷宮任務/
第10章 基于技能的強化學習算法/
10.1技能學習的定義/
10.2互信息化的技能學習算法/
10.2.1多樣性化技能學習算法/
10.2.2其他基于互信息的技能學習方法/
10.3融合環(huán)境模型的技能學習算法/
10.4化狀態(tài)覆蓋的技能學習算法/
10.5實例:人形機器人的技能學習/
第11章 離線強化學習算法/
11.1離線強化學習中面臨的困難/
11.2策略約束的離線學習/
11.2.1BCQ算法/
11.2.2BRAC算法/
11.2.3TD3-BC算法/
11.3使用保守估計的離線學習/
11.4基于不確定性的離線學習/
11.4.1UWAC算法/
11.4.2MOPO算法/
11.4.3PBRL算法/
11.5監(jiān)督式的離線學習/
11.5.1DT算法/
11.5.2RVS算法/
11.6實例:使用離線學習的D4RL任務集/
11.6.1D4RL數(shù)據(jù)集的使用/
11.6.2CQL算法實現(xiàn)/
11.6.3TD3-BC算法實現(xiàn)/
第12章 元強化學習算法/
12.1元強化學習的定義/
12.2基于網(wǎng)絡模型的元強化學習方法/
12.2.1使用循環(huán)神經(jīng)網(wǎng)絡的元強化學習方法/
12.2.2基于時序卷積和軟注意力機制的方法/
12.3元梯度學習/
12.4元強化學習中的探索方法/
12.4.1結構化噪聲探索方法/
12.4.2利用后驗采樣進行探索/
12.5實例:元學習訓練多任務獵豹智能體/
第13章 高效的強化學習表示算法/
13.1為什么要進行表示學習/
13.2對比學習的特征表示/
13.2.1基本原理和SimCLR算法/
13.2.2MoCo 算法/
13.2.3基于對比學習的 CURL算法/
13.2.4基于對比學習的 ATC算法/
13.2.5基于對比學習的 DIM算法/
13.2.6對比學習和互信息理論/
13.2.7完全基于圖像增廣的方法/
13.3魯棒的特征表示學習/
13.3.1互模擬特征/
13.3.2信息瓶頸特征/
13.4使用模型預測的表示學習/
13.5實例:魯棒的仿真自動駕駛/
第14章 強化學習在智能控制中的應用/
14.1機器人控制/
14.1.1機械臂操作任務的控制/
14.1.2足式機器人的運動控制/
14.1.3多任務機器人控制/
14.1.4面臨的挑戰(zhàn)/
14.2電力優(yōu)化控制/
14.2.1電力管理任務/
14.2.2需求響應/
14.3交通指揮優(yōu)化控制/
14.3.1多信號燈合作控制/
14.3.2大規(guī)模信號燈控制方法/
14.3.3元強化學習信號燈控制/
第15章 強化學習在機器視覺中的應用/
15.1神經(jīng)網(wǎng)絡結構搜索/
15.1.1利用強化學習解決NAS/
15.1.2其他前沿方法/
15.2目標檢測和跟蹤中的優(yōu)化/
15.2.1強化學習與目標檢測/
15.2.2強化學習與實時目標跟蹤/
15.3視頻分析/
第16章 強化學習在語言處理中的應用/
16.1知識圖譜系統(tǒng)/
16.2智能問答系統(tǒng)/
16.2.1事后目標回放法/
16.2.2多任務對話系統(tǒng)/
16.3機器翻譯系統(tǒng)/
16.3.1NMT中獎勵的計算/
16.3.2策略梯度方差處理/
第17章 強化學習在其他領域中的應用/
17.1醫(yī)療健康系統(tǒng)/
17.1.1動態(tài)治療方案/
17.1.2重癥監(jiān)護/
17.1.3自動醫(yī)療診斷/
17.2個性化推薦系統(tǒng)/
17.2.1策略優(yōu)化方法/
17.2.2基于圖的對話推薦/
17.3股票交易系統(tǒng)/
17.3.1FinRL強化學習框架/
17.3.2FinRL訓練示例/