深度強化學(xué)習(xí)(Deep Reinforcement Learning,DRL)是深度學(xué)習(xí)算法和強化學(xué)習(xí)算法的巧妙結(jié)合,它是一種新興的通用人工智能算法技術(shù),也是機器學(xué)習(xí)的前沿技術(shù),DRL 算法潛力無限,AlphaGo
是目前該算法*成功的使用案例。DRL 算法以馬爾科夫決策過程為基礎(chǔ),是在深度學(xué)習(xí)強大的非線性函數(shù)的擬合能力下構(gòu)成的一種增強算法。深度強化學(xué)習(xí)算法主要包括基于動態(tài)規(guī)劃(DP)的算法以及基于策略優(yōu)化的算法,本書的目的就是要把這兩種主要的算法(及設(shè)計技巧)講解清楚,使算法研究人員能夠熟練地掌握。
《揭秘深度強化學(xué)習(xí)人工智能機器學(xué)習(xí)技術(shù)叢書》共10 章,首先以AlphaGo 在圍棋大戰(zhàn)的偉大事跡開始,引起對人工智能發(fā)展和現(xiàn)狀的介紹,進而介紹深度強化學(xué)習(xí)的基本知識。然后分別介紹了強化學(xué)習(xí)(重點介紹蒙特卡洛算法和時序差分算法)和深度學(xué)習(xí)的基礎(chǔ)知識、功能神經(jīng)網(wǎng)絡(luò)層、卷積神經(jīng)網(wǎng)絡(luò)(CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN),以及深度強化學(xué)習(xí)的理論基礎(chǔ)和當(dāng)前主流的算法框架。*后介紹了深度強化學(xué)習(xí)在不同領(lǐng)域的幾個應(yīng)用實例。引例、基礎(chǔ)知識和實例相結(jié)合,方便讀者理解和學(xué)習(xí)。
《揭秘深度強化學(xué)習(xí) 人工智能機器學(xué)習(xí)技術(shù)叢書》內(nèi)容豐富,講解全面、語言描述通俗易懂,是深度強化學(xué)習(xí)算法入門的*選擇。本書適合計算機專業(yè)本科相關(guān)學(xué)生、人工智能領(lǐng)域的研究人員以及所有對機器學(xué)習(xí)和人工智能算法感興趣的人員。
《揭秘深度強化學(xué)習(xí) 人工智能機器學(xué)習(xí)技術(shù)叢書》是一本詳細(xì)介紹深度強化學(xué)習(xí)算法的入門類圖書,涉及深度學(xué)習(xí)和強化學(xué)習(xí)的相關(guān)內(nèi)容,是人工智能*前沿的研究方向。非常適合想在下一代技術(shù)領(lǐng)域立足的人工智能和機器學(xué)習(xí)算法從業(yè)者學(xué)習(xí)和參考。
機器學(xué)習(xí)的一個分支是神經(jīng)網(wǎng)絡(luò);神經(jīng)網(wǎng)絡(luò)模擬人的大腦,形成神經(jīng)網(wǎng)絡(luò)模型,它可以包括很多層次,一般來講層次越深學(xué)習(xí)效果越好,很多層的神經(jīng)網(wǎng)絡(luò)就是深度學(xué)習(xí)。
在傳統(tǒng)的機器學(xué)習(xí)中,主要分為非監(jiān)督學(xué)習(xí)(unsupervised
learning)、監(jiān)督學(xué)習(xí)(supervised
leaning)和強化學(xué)習(xí)。強化學(xué)習(xí)是對決策的學(xué)習(xí),簡單來講,強化學(xué)習(xí)就是用獎勵機制,自己調(diào)節(jié)參數(shù),讓算法越來越聰明。
深度強化學(xué)習(xí),研究的是如何通過深度學(xué)習(xí)的方法來解決強化學(xué)習(xí)的問題。也就是深度學(xué)習(xí)和強化學(xué)習(xí)的結(jié)合。
《揭秘深度強化學(xué)習(xí) 人工智能機器學(xué)習(xí)技術(shù)叢書》一書囊括了強化學(xué)習(xí)基礎(chǔ)知識、馬爾科夫決策過程、無模型強化學(xué)習(xí)、模仿學(xué)習(xí)、深度學(xué)習(xí)基礎(chǔ)知識、神經(jīng)網(wǎng)絡(luò)基本組成、反向傳播算法、功能神經(jīng)網(wǎng)絡(luò)層、循環(huán)神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)(CNN)的基礎(chǔ)和結(jié)構(gòu)、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)、深度強化學(xué)習(xí)基礎(chǔ)、蒙特卡洛搜索樹、策略梯度算法、深度強化學(xué)習(xí)算法框架、深度Q學(xué)習(xí)、雙Q學(xué)習(xí)、異步優(yōu)越性策略子-評價算法、深度強化學(xué)習(xí)應(yīng)用實例等。
深度強化學(xué)習(xí)算法可應(yīng)用于量化投資、游戲智能、機器人決策、自動駕駛、無人機等。
深度強化學(xué)習(xí)(Deep Reinforcement Learning,DRL)是一種新興的通用人工智能算法技術(shù),是人工智能邁向智能決策的重要一步。
關(guān)于深度強化學(xué)習(xí)的文章目前比較少,系統(tǒng)介紹深度強化學(xué)習(xí)的教材幾乎沒有。本書系統(tǒng)地介紹深度強化學(xué)習(xí)算法的基礎(chǔ)知識。學(xué)習(xí)該算法的人員需要人工智能相關(guān)專業(yè)的背景,但是并不需要比較深的背景。本書以一種通俗易懂的、細(xì)致的方式對深度強化學(xué)習(xí)算法進行了講解,力求幫助讀者較快入門。深度強化學(xué)習(xí)涉及的知識面比較廣,但其算法原理并不是想象得那么復(fù)雜。因此,本書會對其相關(guān)知識點進行簡要的介紹,保證沒有相關(guān)經(jīng)驗的讀者也能夠很好地理解本書的內(nèi)容。通過本書的學(xué)習(xí),希望讀者能夠掌握兩大類別的深度強化學(xué)習(xí)算法:基于動態(tài)規(guī)劃的算法以及基于策略梯度的算法。深度強化學(xué)習(xí)具有較廣泛的使用場景,例如游戲決策、量化投資、動畫仿真等,希望本書能夠幫助讀者適應(yīng)不同的使用場景。
本書特點
● 前沿的研究方向:本書介紹人工智能目前最前沿的研究方向,是通用智能的基礎(chǔ)。
● 完備的DRL 入門書籍:囊括經(jīng)典,緊跟前沿,包括DRL 目前最新研究成果。
● 通俗易懂的講解:用通俗易懂的語言,結(jié)合案例進行解析,適合所有人工智能相關(guān)專業(yè)的初學(xué)者,能幫助他們快速入門。
● 專業(yè)的經(jīng)驗:本書密切結(jié)合實際應(yīng)用,是人工智能前沿研究及實踐的經(jīng)驗總結(jié)。
本書內(nèi)容安排
第1 章 深度強化學(xué)習(xí)概覽
本章從當(dāng)前人工智能飛速發(fā)展并引起廣泛關(guān)注的背景出發(fā),概述了深度強化學(xué)習(xí)的基本知識,強化學(xué)習(xí)和深度學(xué)習(xí)的發(fā)展歷史、基本概念和特點等,以及深度強化學(xué)習(xí)的兩種算法。
第2 章 強化學(xué)習(xí)基礎(chǔ)
傳統(tǒng)的強化學(xué)習(xí)是深度強化學(xué)習(xí)的基礎(chǔ)。本章從馬爾科夫模型出發(fā)介紹了馬爾科夫決策過程,同時用比較通俗的語言介紹了強化學(xué)習(xí)中的兩種問題,有模型強化學(xué)習(xí)問題以及無模型強化學(xué)習(xí)問題,F(xiàn)實中無模型強化學(xué)習(xí)問題是一種非常普遍的情況,因此重點介紹了其中的蒙特卡洛算法以及時序差分算法。
第3 章 深度學(xué)習(xí)基礎(chǔ)
強化學(xué)習(xí)引入深度學(xué)習(xí)之后,性能得到了極大的提高。本章重點介紹深度學(xué)習(xí)的基礎(chǔ),主要從四個方面來介紹:深度學(xué)習(xí)簡史、深度學(xué)習(xí)的基礎(chǔ)概念、數(shù)據(jù)預(yù)處理以及深度學(xué)習(xí)的硬件基礎(chǔ)。本章的學(xué)習(xí)對于強化學(xué)習(xí)甚至是機器學(xué)習(xí)都非常重要。
第4 章 功能神經(jīng)網(wǎng)絡(luò)層
功能神經(jīng)網(wǎng)絡(luò)層是深度學(xué)習(xí)的核心部分。本章將介紹深度學(xué)習(xí)過程中的激活函數(shù)、全連接層、參數(shù)開關(guān)Dropout 以及CNN 和RNN 等。本章最后也介紹了相關(guān)的網(wǎng)絡(luò)設(shè)計技巧。
第5 章 卷積神經(jīng)網(wǎng)絡(luò)(CNN)
本章用大量的篇幅介紹卷積神經(jīng)網(wǎng)絡(luò),這是因為目前DRL 都是基于CNN 實現(xiàn)的,是希望讀者能夠迅速掌握其相關(guān)知識,不要因為其難點而影響算法的學(xué)習(xí)。本章主要介紹了CNN 的網(wǎng)絡(luò)結(jié)構(gòu)、基于CNN 的經(jīng)典模型,以及基于CNN 的流行應(yīng)用。
第6 章 循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)
循環(huán)神經(jīng)網(wǎng)絡(luò)雖然不是深度強化學(xué)習(xí)的重點,但是也是深度學(xué)習(xí)的一個重要的網(wǎng)絡(luò)結(jié)構(gòu),不難預(yù)見,基于RNN 的強化學(xué)習(xí)算法也會不斷出現(xiàn)。本章介紹了RNN 的基礎(chǔ),同時介紹了RNN 的兩種常見的結(jié)構(gòu):LSTM 以及GRU。
第7 章 如何實現(xiàn)CNN用C 語言實現(xiàn)深度學(xué)習(xí)
本章結(jié)合代碼,通過CNN 的C 語言實現(xiàn)力求使讀者真正地認(rèn)識神經(jīng)網(wǎng)絡(luò),主要內(nèi)容涉及和CNN 相關(guān)的基礎(chǔ)結(jié)構(gòu),包括激活函數(shù)的實現(xiàn)、池化操作以及全連接網(wǎng)絡(luò)的實現(xiàn)。此外,本章重點對卷積網(wǎng)絡(luò)進行了講解,包括前向傳播和反向傳播的具體實現(xiàn)。
第8 章 深度強化學(xué)習(xí)
本章介紹了深度強化學(xué)習(xí)的理論基礎(chǔ),是本書的理論重點,并結(jié)合傳統(tǒng)的強化學(xué)習(xí),介紹了記憶回放(Memory-Replay)機制以及蒙特卡洛搜索樹。此外,對主流的兩類深度強化學(xué)習(xí)算法及其結(jié)合進行了詳細(xì)的理論推導(dǎo)。閱讀本章需要一定的數(shù)學(xué)理論基礎(chǔ)。
第9 章 深度強化學(xué)習(xí)算法框架
本章介紹了當(dāng)前主流的深度強化學(xué)習(xí)算法框架,例如深度Q 學(xué)習(xí)算法、異步深度強化學(xué)習(xí)算法、異步優(yōu)越性策略子- 評價算法等。
第10 章 深度強化學(xué)習(xí)應(yīng)用實例
本章提供了一些深度強化學(xué)習(xí)的應(yīng)用實例,希望通過具體的應(yīng)用案例讓讀者了解深度強化學(xué)習(xí)算法。具體實例涉及計算機游戲、3D 動畫仿真以及AlphaGo 技術(shù)解密。
本書由淺入深,先理論后操作,講解全面易懂,尤其適合剛剛?cè)腴T人工智能領(lǐng)域的新手。
適合閱讀本書的讀者
● 在校計算機專業(yè)本科生;
● 人工智能領(lǐng)域研究生;
● 人工智能領(lǐng)域研究員;
● 研究機器學(xué)習(xí)算法的相關(guān)人員;
● 人工智能領(lǐng)域愛好者。
本書源文件下載
本書提供代碼源文件,有需要的讀者可以通過掃描下面的二維碼獲取下載鏈接。若有關(guān)于本書的疑問和建議也可以在公眾號留言,我們將竭誠為您服務(wù)。
編者
第1章 深度強化學(xué)習(xí)概覽
1.1 什么是深度強化學(xué)習(xí)?
1.1.1 俯瞰強化學(xué)習(xí)
1.1.2 來一杯深度學(xué)習(xí)
1.1.3 Hello,深度強化學(xué)習(xí)
1.2 深度強化學(xué)習(xí)的學(xué)習(xí)策略
1.3 本書的內(nèi)容概要
參考文獻
第2章 強化學(xué)習(xí)基礎(chǔ)
2.1 真相--經(jīng)典的隱馬爾科夫模型(HMM)
2.1.1 HMM引例
2.1.2 模型理解與推導(dǎo)
2.1.3 隱馬爾科夫應(yīng)用舉例
2.2 逢考必過馬爾科夫決策過程(MDP)
2.2.1 MDP生活化引例
2.2.2 MDP模型
2.2.3 MDP模型引例
2.2.4 模型理解
2.2.5 探索與利用
2.2.6 值函數(shù)和動作值函數(shù)
2.2.7 基于動態(tài)規(guī)劃的強化問題求解
2.3 糟糕,考試不給題庫無模型強化學(xué)習(xí)
2.3.1 蒙特卡洛算法
2.3.2 時序差分算法
2.3.3 異步強化學(xué)習(xí)算法
2.4 學(xué)霸來了--強化學(xué)習(xí)之模仿學(xué)習(xí)
2.4.1 模仿學(xué)習(xí)(Imitation Learning)
2.4.2 逆強化學(xué)習(xí)
本章總結(jié)
參考
第3章 深度學(xué)習(xí)基礎(chǔ)
3.1 深度學(xué)習(xí)簡史
3.1.1 神經(jīng)網(wǎng)絡(luò)發(fā)展史
3.1.2 深度學(xué)習(xí)的分類
3.1.3 深度學(xué)習(xí)的應(yīng)用
3.1.4 深度學(xué)習(xí)存在的問題
3.2 深度學(xué)習(xí)基礎(chǔ)概念
3.2.1 深度學(xué)習(xí)總體感知
3.2.2 神經(jīng)網(wǎng)絡(luò)的基本組成
3.2.3 深度學(xué)習(xí)訓(xùn)練
3.2.4 梯度下降法
3.2.5 反向傳播算法(BP)
3.3 數(shù)據(jù)預(yù)處理
3.3.1 主成分分析(PCA)
3.3.2 獨立成分分析(ICA)
3.3.3 數(shù)據(jù)白化處理
3.4 深度學(xué)習(xí)硬件基礎(chǔ)
3.4.1 深度學(xué)習(xí)硬件基礎(chǔ)
3.4.2 GPU簡介
3.4.3 CUDA編程
本章總結(jié)
參考
第4章 功能神經(jīng)網(wǎng)絡(luò)層
4.1 激活函數(shù)單元
4.2 池化層Pooling layer
4.3 參數(shù)開關(guān)Dropout
4.4 批量歸一化層(Batch normalization layer)
4.5 全連接層
4.6 卷積神經(jīng)網(wǎng)絡(luò)
4.7 全卷積神經(jīng)網(wǎng)絡(luò)
4.8 循環(huán)(遞歸)神經(jīng)網(wǎng)絡(luò)(RNN)
4.9 深度學(xué)習(xí)的
本章總結(jié)
參考
第5章 卷積神經(jīng)網(wǎng)絡(luò)(CNN)
5.1 卷積神經(jīng)網(wǎng)絡(luò) CNN 基礎(chǔ)
5.1.1 卷積神經(jīng)網(wǎng)絡(luò)的歷史
5.1.2 卷積神經(jīng)網(wǎng)絡(luò)的核心
5.2 卷積神經(jīng)網(wǎng)絡(luò) CNN 結(jié)構(gòu)
5.2.1 深度卷積神經(jīng)網(wǎng)絡(luò)CNN
5.2.2 深度卷積神經(jīng)網(wǎng)絡(luò)CNN可視化
5.3 經(jīng)典卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)分析
5.3.1 一切的開始--LeNet
5.3.2 王者回歸--AlexNet
5.3.3 起飛的時候--VGG
5.3.4 致敬經(jīng)典GoogLeNet
5.3.5 沒有最深只有更深--ResNet
5.4 對抗網(wǎng)絡(luò)
5.4.1 對抗網(wǎng)絡(luò)(GAN)
5.4.2 WGAN
5.5 RCNN
5.6 CNN的應(yīng)用實例
本章總結(jié)
參考
第6章 循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)
6.1 RNN概覽
6.2 長期依賴(Long-Term Dependencies)問題
6.3 LSTM 的變體
本章總結(jié)
參考
第7章:如何寫自己的CNNC語言實現(xiàn)深度學(xué)習(xí)
7.1 如何寫自己的CMake文件
7.2 如何寫自己神經(jīng)網(wǎng)絡(luò)
7.2.1 激活函數(shù)
7.2.2 池化函數(shù)
7.2.3 全連接層
7.3 卷積神經(jīng)網(wǎng)絡(luò)
7.3.1 CNN網(wǎng)絡(luò)的構(gòu)建
7.3.2 CNN前向傳播
7.3.3 CNN的反向傳播
7.4 文件解析
本章總結(jié)
第8章 深度強化學(xué)習(xí)
8.1 初識深度強化學(xué)習(xí)
8.1.1 深度強化學(xué)習(xí)概覽
8.1.2 記憶回放(Memory-Replay)機制
8.1.3 蒙特卡羅搜索樹
8.2 深度強化學(xué)習(xí)(DRL)中的值函數(shù)算法
8.2.1 DRL中值函數(shù)的作用
8.2.2 DRL中值函數(shù)理論推導(dǎo)
8.3 深度強化學(xué)習(xí)中的策略梯度(Policy Gradient)
8.3.1 策略梯度的作用和優(yōu)勢
8.3.2 策略梯度的理論推導(dǎo)
8.3.3 REINFORCE算法
8.3.4 策略梯度的優(yōu)化算法
8.3.5 策略子-評判算法(Actor-Critic)
8.4 深度強化學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)
參考
第9章 深度強化學(xué)習(xí)算法框架
9.1 深度Q學(xué)習(xí)
9.2 雙Q學(xué)習(xí)
9.3 異步深度強化學(xué)習(xí)
9.4 異步優(yōu)越性策略子-評價算法
9.5 DDPG 算法:
9.6 值迭代網(wǎng)絡(luò)
本章總結(jié)
參考
第10章 深度強化學(xué)習(xí)應(yīng)用實例
10.1 Flappy Bird 應(yīng)用
10.2 Play Pong 應(yīng)用
10.3 深度地形-自適應(yīng)應(yīng)用(Deep Terrain-adaptive應(yīng)用)
10.4 AlphaGo 254
10.4.1 獨立算法的研究部分
10.4.2 AlphaGo算法
本章總結(jié)
參考
附錄: 常用的深度學(xué)習(xí)框架
F.1. 谷歌TensorFlow
F.1.1 TensorFlow 簡介
F.1.2 TensorFlow 基礎(chǔ)
F.2 輕量級MXNet
F.2.1 MXnet介紹
F.2.2 MXnet基礎(chǔ)
F.3 來至UCLA 的Caffe
F.3.1 Caffe 簡介
F3.2 Caffe基礎(chǔ)
F.4 悠久的 Theano
F.4.1 Theano簡介
F.4.2 Theano基礎(chǔ)
F.5 30s 入門的Keras
參考