在人工智能技術(shù)的大力驅(qū)動下,智能控制與強化學習發(fā)展迅猛,先進自動化設(shè)計與控制日新月異。本書針對復雜離散時間系統(tǒng)的優(yōu)化調(diào)節(jié)、最優(yōu)跟蹤、零和博弈等問題,以實現(xiàn)穩(wěn)定學習、演化學習和快速學習為目標,建立一套先進的值迭代評判學習控制理論與設(shè)計方法。首先,對先進值迭代框架下迭代策略的穩(wěn)定性進行全面深入的分析,建立一系列適用于不同場景的穩(wěn)定性判據(jù),從理論層面揭示值迭代算法能夠?qū)崿F(xiàn)離線最優(yōu)控制和在線演化控制。其次,基于迭代歷史信息,提出一種新穎的收斂速度可調(diào)節(jié)的值迭代算法,有助于加快學習速度、減少計算代價,更高效地獲得非線性系統(tǒng)的最優(yōu)控制律。結(jié)合人工智能技術(shù),對無模型值迭代評判學習控制的發(fā)展前景也進行了討論。 本書內(nèi)容豐富、結(jié)構(gòu)清晰、由淺入深、分析透徹,既可作為智能控制、強化學習、優(yōu)化控制、計算智能、自適應與學習系統(tǒng)等領(lǐng)域研究人員和學生的參考書,又可供相關(guān)領(lǐng)域的技術(shù)人員使用。
·新一代人工智能技術(shù)基礎(chǔ)理論著作
·人工智能、智能控制熱點研究著作
本書的出版將為相關(guān)領(lǐng)域工作人員有效地把握先進值迭代的研究動態(tài)與最新發(fā)展現(xiàn)狀提供有益參考。
本書內(nèi)容豐富、結(jié)構(gòu)清晰、由淺入深、分析透徹,既可作為智能控制、強化學習、優(yōu)化控制、計算智能、自適應與學習系統(tǒng)等領(lǐng)域研究人員和學生的參考書,又可供相關(guān)領(lǐng)域的技術(shù)人員使用。
王鼎,男,北京工業(yè)大學教授、博士生導師,現(xiàn)任計算智能與智能系統(tǒng)北京市重點實驗室副主任。北京市自然科學基金杰出青年項目獲得者、科睿唯安(Clarivate)全球高被引科學家、中國科協(xié)青年人才托舉工程入選者,主要研究方向為智能控制與智能優(yōu)化、神經(jīng)網(wǎng)絡(luò)與強化學習,涉及復雜智能控制優(yōu)化、人工智能理論基礎(chǔ)。針對不確定系統(tǒng)優(yōu)化控制中的共性難題進行了長期研究攻關(guān),建立并逐步完善智能評判控制框架,并為工業(yè)復雜系統(tǒng)的智能優(yōu)化控制提供了理論支撐。目前已在人工智能及相關(guān)領(lǐng)域的國際期刊和會議上發(fā)表學術(shù)論文120余篇,其中82篇被SCI檢索(以第一作者發(fā)表在IEEE Transactions系列期刊和Automatica領(lǐng)域頂刊的論文共25篇),已出版專著4本,申請和已授權(quán)發(fā)明專利9項。先后榮獲吳文俊人工智能優(yōu)秀青年獎、中國自動化學會自然科學獎一等獎、廣東省自然科學獎一等獎等。先后擔任人工智能及相關(guān)領(lǐng)域多個著名期刊的編委,包括:IEEE Transactions on Systems, Man, and Cybernetics: Systems、IEEE Transactions on Neural Networks and Learning Systems、Neural Networks、International Journal of Robust and Nonlinear Control、International Journal of Adaptive Control and Signal Processing、Neurocomputing、自動化學報。
第 一章 智能評判控制的先進值迭代方法概述
1.1 強化學習背景
1.2 自適應評判介紹
1.3 傳統(tǒng)值迭代
1.4 廣義值迭代
1.5 演化值迭代
1.6 加速值迭代
1.7 小結(jié)
第二章 基于廣義值迭代的線性最優(yōu)調(diào)節(jié)與穩(wěn)定性分析
2.1 引言
2.2 問題描述
2.3 面向線性系統(tǒng)的廣義值迭代
2.4 迭代策略穩(wěn)定性分析
2.5 仿真實驗
2.6 小結(jié)
第三章 具有穩(wěn)定保證的非線性系統(tǒng)優(yōu)化控制設(shè)計
3.1 引言
3.2 問題描述
3.3 面向非線性系統(tǒng)的廣義值迭代
3.4 迭代策略穩(wěn)定性和容許性分析
3.5 仿真實驗
3.6 小結(jié)
第四章 一種基于評判學習的非線性智能最優(yōu)跟蹤
4.1 引言
4.2 問題描述
4.3 面向智能最優(yōu)跟蹤的廣義值迭代
4.4 基于神經(jīng)網(wǎng)絡(luò)的算法實現(xiàn)
4.5 仿真實驗
4.6 小結(jié)
第五章 一類非線性系統(tǒng)的事件觸發(fā)最優(yōu)跟蹤控制
5.1 引言
5.2 問題描述
5.3 基于事件觸發(fā)的近似最優(yōu)跟蹤
5.4 基于神經(jīng)網(wǎng)絡(luò)的跟蹤控制器設(shè)計
5.5 仿真實驗
5.6 小結(jié)
第六章 基于演化值迭代的非線性最優(yōu)軌跡跟蹤
6.1 引言
6.2 問題描述
6.3 基于新型效用函數(shù)的廣義值迭代
6.4 演化控制與穩(wěn)定性分析
6.5 仿真實驗
6.6 小結(jié)
第七章 融合值迭代學習的非線性零和博弈性能分析
7.1 引言
7.2 零和博弈問題描述
7.3 面向零和博弈的廣義值迭代
7.4 零和博弈的演化控制設(shè)計
7.5 仿真實驗
7.6 小結(jié)
第八章 具有可調(diào)節(jié)收斂速度的新型值迭代機制
8.1 引言
8.2 問題描述
8.3 加速值迭代算法性能分析
8.4 加速值迭代應用設(shè)計
8.5 仿真實驗
8.6 小結(jié)
第九章 基于加速值迭代的非線性系統(tǒng)軌跡跟蹤
9.1 引言
9.2 問題描述
9.3 面向跟蹤控制的加速值迭代
9.4 基于加速值迭代的演化控制
9.5 仿真實驗
9.6 小結(jié)
第十章 面向非線性零和博弈的快速值迭代學習
10.1 引言
10.2 問題描述
10.3 面向零和博弈的增量迭代機制
10.4 面向零和博弈的自勵迭代機制
10.5 仿真實驗
10.6 小結(jié)與展望