本書可作為在線凸優(yōu)化大量理論的導(dǎo)論教程。第2~5章主要介紹在線凸優(yōu)化的基本概念、架構(gòu)和核心算法。本書其余部分則處理更為高級的算法、更為困難的設(shè)定和與著名的機器學(xué)習(xí)范式之間的關(guān)系。
本書可作為在線凸優(yōu)化大量理論的導(dǎo)論教程。第2~5章主要介紹在線凸優(yōu)化的基本概念、架構(gòu)和核心算法。本書其余部分則處理更為高級的算法、更為困難的設(shè)定和與著名的機器學(xué)習(xí)范式之間的關(guān)系。
本書可用作大量在線凸優(yōu)化(OnlineConvexOptimization,OCO)理論的導(dǎo)論.它是一本針對研究生課程的基礎(chǔ)內(nèi)容設(shè)計的高等教材,可作為深入優(yōu)化與機器學(xué)習(xí)交叉領(lǐng)域的研究人員的參考書.
這一課程于2010~2014年在Technion開設(shè),每一年都有一些小的變化,之后于2015~2016年在普林斯頓大學(xué)開設(shè).這些課程中的核心材料在本書中均有涉及,同時本書也附帶了習(xí)題以便學(xué)生完成部分計算和證明,還有一些具有啟發(fā)性和發(fā)人深省的內(nèi)容.多數(shù)材料是以應(yīng)用實例的形式給出的,這些例子貫穿不同的主題,包括來自專家建議的預(yù)測(predictionfromexpertadvice)、投資組合選擇(portfolioselection)、矩陣補全(matrixcompletion)和推薦系統(tǒng)(recommendationsystem)、支持向量機(SupportVectorMachine,SVM)的訓(xùn)練等.
希望本書可以為讀者、教師和研究人員提供幫助.
請將本書置于機器學(xué)習(xí)的圖書館中
近年來,在機器學(xué)習(xí)廣闊領(lǐng)域的子學(xué)科,如在線學(xué)習(xí)(onlinelearning)、提升方法(boosting)、博弈中的遺憾值小化方法(regretminimizationingames)、通用預(yù)測方法(universalprediction)和其他相關(guān)主題中出現(xiàn)了大量的入門文獻(xiàn).在本書中,很難對所有這些內(nèi)容進(jìn)行取舍,但它們也許指出了本書在讀者擁有的虛擬圖書館中的位置.
緊挨著本書的應(yīng)當(dāng)是Cesa-Bianchi和Lugosi[29]的精彩教材,正是它啟迪了本書的撰寫.事實上,它啟迪了博弈論中學(xué)習(xí)方法的整個領(lǐng)域.另外,有著無數(shù)有關(guān)凸優(yōu)化和凸分析的入門文獻(xiàn),包括[23,78,76,77,21,92].有關(guān)機器學(xué)習(xí)的文獻(xiàn)太多了,不可能在此一一給出.
本書的主要目的是為在線凸優(yōu)化和凸優(yōu)化與機器學(xué)習(xí)相結(jié)合的課程提供教材.在線凸優(yōu)化已經(jīng)在很多綜述和入門文獻(xiàn)(例如[53,97,85,87])中產(chǎn)生了足夠大的影響.希望本書能進(jìn)一步豐富這些文獻(xiàn).
本書的結(jié)構(gòu)
本書旨在為計算機科學(xué)、電氣工程、運籌學(xué)、統(tǒng)計學(xué)及相關(guān)領(lǐng)域的研究生提供自學(xué)課程的參考.因此,本書遵循了在Technion講授的“決策分析”課程的架構(gòu).
根據(jù)課程的深度和廣度,每一章都應(yīng)講授一周或兩周.第1章為導(dǎo)論,因此沒有其他部分那么嚴(yán)格.
全書可以粗略地分成兩個部分:部分從第2章到第5章,包括在線凸優(yōu)化的基本概念、架構(gòu)和核心算法;第二部分從第6章到第9章,旨在處理更高級的算法、更困難的設(shè)定和與著名的機器學(xué)習(xí)范式之間的關(guān)系.
埃拉德·哈贊(Elad Hazan) 普林斯頓大學(xué)計算機科學(xué)教授,谷歌人工智能普林斯頓公司的聯(lián)合創(chuàng)始人和董事。他專注于機器學(xué)習(xí)和優(yōu)化中基本問題的算法設(shè)計和分析的研究,曾獲得貝爾實驗室獎、2008年度和2012年度IBM Goldberg論文獎、歐洲研究理事會獎、瑪麗·居里獎學(xué)金和谷歌研究獎。他曾在計算學(xué)習(xí)協(xié)會指導(dǎo)委員會任職,并擔(dān)任COLT 2015程序委員會主席,2017年與他人共同創(chuàng)建了致力于高效優(yōu)化和控制的In8公司。
前言
致謝
第1章 導(dǎo)論 1
1.1 在線凸優(yōu)化模型 2
1.2 可以用OCO建模的例子 3
1.3 一個溫和的開始: 從專家建議中學(xué)習(xí) 8
1.3.1 加權(quán)多數(shù)算法 10
1.3.2 隨機加權(quán)多數(shù)算法 12
1.3.3 對沖 14
1.4 習(xí)題 16
1.5 文獻(xiàn)點評 17
第2章 凸優(yōu)化的基本概念 18
2.1 基本定義和設(shè)定 18
2.1.1 在凸集上的投影 20
2.1.2 條件簡介 21
2.2 梯度、次梯度下降法 23
2.3 非光滑和非強凸函數(shù)的歸約 27
2.3.1 光滑非強凸函數(shù)的歸約 28
2.3.2 強凸非光滑函數(shù)的歸約 29
2.3.3 一般凸函數(shù)的歸約 32
2.4 例子: 支持向量機訓(xùn)練 33
2.5 習(xí)題 35
2.6 文獻(xiàn)點評 37
第3章 在線凸優(yōu)化的一階算法 38
3.1 在線梯度下降法 39
3.2 下界 42
3.3 對數(shù)遺憾 43
3.4 應(yīng)用: 隨機梯度下降法 45
3.5 習(xí)題 49
3.6 文獻(xiàn)點評 50
第4章 二階方法 51
4.1 動機: 通用投資組合選擇 51
4.1.1 主流投資組合理論 51
4.1.2 通用投資組合理論 52
4.1.3 持續(xù)再平衡投資組合 54
4.2 exp-凹函數(shù) 55
4.3 在線牛頓步算法 57
4.4 習(xí)題 63
4.5 文獻(xiàn)點評 64
第5章 正則化 66
5.1 正則函數(shù) 67
5.2 RFTL 算法及其分析 69
5.2.1 元算法的定義 70
5.2.2 遺憾界 70
5.3 在線鏡像下降法 74
5.3.1 遲緩型OMD算法與RFTL 算法的等價性 75
5.3.2 鏡像下降的遺憾界 76
5.4 應(yīng)用及特殊情形 78
5.4.1 在線梯度下降法的導(dǎo)出 79
5.4.2 乘法更新的導(dǎo)出 79
5.5 隨機正則化 81
5.5.1 對凸代價函數(shù)的擾動 82
5.5.2 對線性代價函數(shù)的擾動 86
5.5.3 專家建議中的擾動領(lǐng)袖追隨算法 87
5.6 正則化(選學(xué)) 90
5.7 習(xí)題 96
5.8 文獻(xiàn)點評 98
第6章 Bandit凸優(yōu)化 100
6.1 BCO設(shè)定 100
6.2 多臂賭博機問題 101
6.3 從有限信息到完整信息的歸約 107
6.3.1 第1部分: 使用無偏估計 107
6.3.2 第2部分: 點點梯度估計 110
6.4 不需要梯度的在線梯度下降算法 113
6.5 BLO遺憾算法(選學(xué)) 116
6.5.1 自和諧障礙 116
6.5.2 一個近優(yōu)算法 118
6.6 習(xí)題 121
6.7 文獻(xiàn)點評 122
第7章 無投影算法 123
7.1 回顧: 與線性代數(shù)相關(guān)的概念 123
7.2 動機: 矩陣補全與推薦系統(tǒng) 124
7.3 條件梯度法 126
7.4 投影與線性優(yōu)化 131
7.5 在線條件梯度算法 133
7.6 習(xí)題 138
7.7 文獻(xiàn)點評 139
第8章 博弈、對偶性和遺憾 140
8.1 線性規(guī)劃和對偶性 141
8.2 零和博弈與均衡 142
8.3 馮·諾伊曼定理的證明 146
8.4 近似線性規(guī)劃 148
8.5 習(xí)題 150
8.6 文獻(xiàn)點評 150
第9章 學(xué)習(xí)理論、泛化和OCO 152
9.1 統(tǒng)計學(xué)習(xí)理論的設(shè)定 152
9.1.1 過擬合 153
9.1.2 沒有免費