《機器學習中的標記增強理論與應(yīng)用研究》由東南大學計算機科學與工程學院助理研究員徐寧撰寫。全書聚焦標記端多義性這一當今機器學習領(lǐng)域的熱點問題,針對學習過程中不可避免的信息損失這一突出問題,提出了標記增強的概念,以期在不增加額外數(shù)據(jù)標注負擔的前提下,挖掘訓(xùn)練樣本中蘊含的標記重要性差異信息,將邏輯標記轉(zhuǎn)化為標記分布。
《機器學習中的標記增強理論與應(yīng)用研究》共六章:
第1章緒論,介紹了全書的研究背景和研究內(nèi)容。
第2章標記增強研究進展,介紹了標記增強的研究進展。
第3章標記增強理論框架,構(gòu)建了標記增強的理論框架。
第4章面向標記分布學習的標記增強,提出了面向標記分布學習的標記增強。
第5章標記增強在其他學習問題上的應(yīng)用,將標記增強應(yīng)用到其他學習問題上。
第6章總結(jié)與展望,總結(jié)現(xiàn)有工作,并在此基礎(chǔ)上進行展望。
適讀人群 :研究生、科研人員、從業(yè)者等
◆中國計算機領(lǐng)域具有重要突破或重要創(chuàng)新的博士研究生科研成果
◆2021年度CCF優(yōu)秀博士學位論文獎
◆構(gòu)建了標記增強基礎(chǔ)理論框架
◆提出了面向標記分布學習的標記增強專用算法
◆在其他學習范式上應(yīng)用了標記增強
標記端多義性是當今機器學習的熱點問題。多標記學習中,每個樣本都被賦予了一組標記子集來表示其多種語義信息。然而,標記強度差異現(xiàn)象在多義性機器學習任務(wù)中廣泛存在,而既有多標記學習研究中普遍采用的相關(guān)/無關(guān)兩個子集的邏輯劃分法幾乎完全忽視了這種現(xiàn)象,造成學習過程中不可避免的信息損失。針對這一突出問題,有必要用一種稱為標記分布的標注結(jié)構(gòu)來代替邏輯標記對示例的類別信息進行描述。標記分布通過連續(xù)的描述度來顯式表達每個標記與數(shù)據(jù)對象的關(guān)聯(lián)程度,很自然地解決了標記強度差異的問題,而在以標記分布標注的數(shù)據(jù)集上學習的過程就稱為標記分布學習。由于描述度的標注成本更高且常常沒有客觀的量化標準,現(xiàn)實任務(wù)中大量的多義性數(shù)據(jù)仍然是以簡單邏輯標記標注的,為此本書提出了標記增強這一概念。標記增強在不增加額外數(shù)據(jù)標注負擔的前提下,挖掘訓(xùn)練樣本中蘊含的標記重要性差異信息,將邏輯標記轉(zhuǎn)化為標記分布。
徐寧,東南大學計算機科學與工程學院助理研究員。先后獲中國科學技術(shù)大學學士學位、中國科學院大學碩士學位以及東南大學博士學位。主要從事機器學習和數(shù)據(jù)挖掘領(lǐng)域的研究。在ICML、NeurIPS、IEEE TPAMI、IEEE TKDE等著名國際會議和期刊發(fā)表論文20余篇。獲2021年CCF優(yōu)秀博士學位論文獎、2020年德國DAAD AInet獎、2021年江蘇省優(yōu)秀博士學位論文獎。擔任Frontiers of Computer Science的預(yù)備青年編委,CCF人工智能與模式識別專業(yè)委員會執(zhí)行委員,ICML、NeurIPS、ICLR、AAAI、IJCAI、ECML等著名國際會議的(高級)程序委員會委員,IEEE TPAMI、IEEE TNNLS、IEEE TMM等著名國際期刊的審稿人。
第1章 緒論
1.1 研究背景 1
1.2 標記增強簡介 5
1.3 研究內(nèi)容 7
1.4 組織結(jié)構(gòu) 9
第2章 標記增強研究進展
2.1 引言 11
2.2 多標記學習 14
2.2.1 學習任務(wù) 14
2.2.2 學習方法 15
2.2.3 評價指標 22
2.3 標記分布學習 29
2.3.1 學習任務(wù) 31
2.3.2 學習方法 33
2.3.3 評價指標 39
2.4 標記增強 40
2.4.1 基于先驗知識的標記增強 42
2.4.2 基于模糊方法的標記增強 45
2.4.3 基于圖的標記增強 48
第3章 標記增強理論框架
3.1 引言 52
3.2 標記分布內(nèi)在生成機制 54
3.3 標記分布質(zhì)量評價 62
3.4 標記增強對分類器泛化性能的提升 66
3.5 實驗結(jié)果與分析 68
3.5.1 標記分布恢復(fù)實驗 68
3.5.2 消融實驗 80
3.6 本章小結(jié) 85
第4章 面向標記分布學習的標記增強
4.1 引言 86
4.2 GLLE方法 87
4.2.1 優(yōu)化框架 88
4.2.2 拓撲空間結(jié)構(gòu)的引入 89
4.2.3 標記相關(guān)性的利用 90
4.2.4 優(yōu)化策略 92
4.3 實驗結(jié)果與分析 94
4.3.1 標記分布恢復(fù)實驗 94
4.3.2 標記分布學習實驗 103
4.3.3 標記相關(guān)性驗證 107
4.4 本章小結(jié) 109
第5章 標記增強在其他學習問題上的應(yīng)用
5.1 引言 111
5.2 多標記學習 112
5.2.1 LEMLL方法 113
5.2.2 實驗結(jié)果與分析 118
5.3 偏標記學習 126
5.3.1 PLLE方法 128
5.3.2 實驗結(jié)果與分析 132
5.4 本章小結(jié) 149
第6章 總結(jié)與展望
6.1 總結(jié) 151
6.2 下一步研究的方向 153