本書對(duì)自然語(yǔ)言處理中的兩種代表性的短文本信息挖掘進(jìn)行研究:關(guān)系抽取和彈幕評(píng)論挖掘。針對(duì)關(guān)系抽取任務(wù),從精度、效率、魯棒性及前沿探索四個(gè)方面進(jìn)行分析并提出對(duì)應(yīng)的解決方法。針對(duì)彈幕評(píng)論挖掘任務(wù),充分地利用彈幕的實(shí)時(shí)性、交互性、高噪聲等性質(zhì),提出適用于彈幕評(píng)論的語(yǔ)義分析模型。針對(duì)目標(biāo)任務(wù)的信息缺陷,本書從多角度研究和設(shè)計(jì)對(duì)應(yīng)的深度學(xué)習(xí)算法以提高信息挖掘的精度。
更多科學(xué)出版社服務(wù),請(qǐng)掃碼獲取。
目錄
前言
致謝
第1章深度學(xué)習(xí)1
1.1深度學(xué)習(xí)簡(jiǎn)介1
1.2深度學(xué)習(xí)經(jīng)典模型3
1.2.1卷積神經(jīng)網(wǎng)絡(luò)3
1.2.2循環(huán)神經(jīng)網(wǎng)絡(luò)4
1.2.3注意力模型5
1.2.4膠囊網(wǎng)絡(luò)6
1.2.5遷移學(xué)習(xí)與多任務(wù)學(xué)習(xí)7
1.2.6對(duì)抗學(xué)習(xí)及生成對(duì)抗網(wǎng)絡(luò).8
1.2.7主動(dòng)學(xué)習(xí)9
思考題.10
第2章短文本信息挖掘11
2.1短文本信息挖掘簡(jiǎn)介11
2.2關(guān)系抽取簡(jiǎn)介.12
2.2.1關(guān)系抽取定義13
2.2.2神經(jīng)關(guān)系抽取14
2.2.3遠(yuǎn)程監(jiān)督的關(guān)系抽取15
2.2.4關(guān)系抽取前沿16
2.2.5研究意義及挑戰(zhàn)17
2.3彈幕評(píng)論挖掘簡(jiǎn)介19
2.3.1基于無監(jiān)督學(xué)習(xí)的文本分析方法.21
2.3.2基于神經(jīng)網(wǎng)絡(luò)監(jiān)督學(xué)習(xí)的文本分析方法25
2.4研究?jī)?nèi)容及結(jié)構(gòu)27
2.4.1關(guān)系抽取27
2.4.2彈幕評(píng)論挖掘29
思考題.31
第3章相關(guān)工作32
3.1關(guān)系抽取研究.32
3.1.1監(jiān)督學(xué)習(xí)32
3.1.2遠(yuǎn)程監(jiān)督35
3.2彈幕評(píng)論挖掘研究37
3.2.1基于評(píng)論挖掘的關(guān)鍵詞抽取方法.37
3.2.2基于評(píng)論挖掘的推薦系統(tǒng)38
3.2.3基于評(píng)論挖掘的劇透檢測(cè)方法.38
思考題.39
第4章關(guān)系抽取模型的精度提升40
4.1概述40
4.2多標(biāo)簽關(guān)系抽取40
4.3基于注意力的膠囊網(wǎng)絡(luò)模型42
4.3.1特征提取層——Bi-LSTM網(wǎng)絡(luò)43
4.3.2特征聚集層——基于注意力的膠囊網(wǎng)絡(luò).44
4.3.3關(guān)系預(yù)測(cè)層——基于滑動(dòng)窗口的損失函數(shù)46
4.4實(shí)驗(yàn)47
4.4.1數(shù)據(jù)集47
4.4.2實(shí)驗(yàn)設(shè)置47
4.4.3實(shí)驗(yàn)效果49
4.4.4案例分析52
4.5本章小結(jié)53
思考題.53
第5章關(guān)系抽取模型的效率優(yōu)化55
5.1概述55
5.2神經(jīng)關(guān)系抽取模型的效率陷阱55
5.3基于句內(nèi)問答的關(guān)系抽取模型57
5.3.1網(wǎng)絡(luò)結(jié)構(gòu)58
5.3.2復(fù)雜度分析61
5.4實(shí)驗(yàn)63
5.4.1數(shù)據(jù)集63
5.4.2實(shí)驗(yàn)設(shè)置64
5.4.3實(shí)驗(yàn)效果65
5.4.4案例分析67
5.5本章小結(jié)67
思考題.68
第6章關(guān)系抽取模型的魯棒性增強(qiáng)69
6.1概述69
6.2遠(yuǎn)程監(jiān)督的噪聲分布分析70
6.3詞匯級(jí)別噪聲解決方法.74
6.4句子級(jí)別噪聲解決方法.76
6.5先驗(yàn)知識(shí)級(jí)別噪聲解決方法78
6.6數(shù)據(jù)分布級(jí)別噪聲解決方法80
6.7多級(jí)別噪聲協(xié)同解決方法81
6.8實(shí)驗(yàn)82
6.8.1數(shù)據(jù)集及評(píng)價(jià)指標(biāo)83
6.8.2詞匯級(jí)別降噪相關(guān)實(shí)驗(yàn)83
6.8.3句子級(jí)別降噪相關(guān)實(shí)驗(yàn)85
6.8.4先驗(yàn)知識(shí)級(jí)別降噪相關(guān)實(shí)驗(yàn)88
6.8.5數(shù)據(jù)分布級(jí)別降噪相關(guān)實(shí)驗(yàn)89
6.8.6多級(jí)別抗噪聲相關(guān)實(shí)驗(yàn)91
6.9本章小結(jié)93
思考題.93
第7章關(guān)系抽取模型的前沿初探94
7.1概述94
7.2錯(cuò)誤標(biāo)注負(fù)樣本問題95
7.3GAN驅(qū)動(dòng)的半遠(yuǎn)程監(jiān)督學(xué)習(xí)框架96
7.3.1半遠(yuǎn)程監(jiān)督關(guān)系抽取原理96
7.3.2GAN驅(qū)動(dòng)的半監(jiān)督關(guān)系抽取算法98
7.4基于主動(dòng)學(xué)習(xí)的無偏測(cè)評(píng)方法.100
7.4.1無偏測(cè)評(píng)原理100
7.4.2無偏測(cè)評(píng)算法101
7.5實(shí)驗(yàn).104
7.5.1數(shù)據(jù)集及評(píng)價(jià)指標(biāo)104
7.5.2GAN驅(qū)動(dòng)的半遠(yuǎn)程監(jiān)督關(guān)系抽取相關(guān)實(shí)驗(yàn)105
7.5.3基于主動(dòng)學(xué)習(xí)的無偏測(cè)評(píng)方法相關(guān)實(shí)驗(yàn).109
7.6本章小結(jié)115
思考題115
第8章彈幕視頻標(biāo)簽提取116
8.1概述.116
8.2語(yǔ)義關(guān)系圖的構(gòu)建與圖聚類算法117
8.2.1語(yǔ)義關(guān)系圖的構(gòu)建117
8.2.2基于圖聚類算法的彈幕主題劃分119
8.2.3復(fù)雜度分析124
8.3語(yǔ)義權(quán)重分析與標(biāo)簽提取125
8.3.1基于圖迭代算法的評(píng)論影響力計(jì)算125
8.3.2視頻標(biāo)簽提取127
8.4實(shí)驗(yàn).128
8.4.1實(shí)驗(yàn)參數(shù)設(shè)定與數(shù)據(jù)集構(gòu)建128
8.4.2實(shí)驗(yàn)結(jié)果133
8.5本章小結(jié)138
思考題138
第9章彈幕推薦系統(tǒng)140
9.1概述.140
9.2基于模型的協(xié)同過濾算法141
9.2.1問題描述142
9.2.2基于文本的推薦模型142
9.2.3圖文融合模型144
9.2.4基于羊群效應(yīng)的注意力機(jī)制146
9.3實(shí)驗(yàn).148
9.3.1實(shí)驗(yàn)參數(shù)設(shè)定與數(shù)據(jù)集構(gòu)建148
9.3.2實(shí)驗(yàn)結(jié)果149
9.4本章小結(jié)151
思考題151
第10章彈幕劇透檢測(cè)153
10.1概述153
10.2問題定義與符號(hào)描述.155
10.2.1問題定義155
10.2.2符號(hào)描述156
10.3劇透檢測(cè)模型156
10.3.1單詞級(jí)注意力編碼器157
10.3.2相似度網(wǎng)絡(luò)158
10.3.3句子級(jí)語(yǔ)義方差注意力機(jī)制160
10.3.4數(shù)字嵌入方法162
10.4實(shí)驗(yàn)162
10.4.1數(shù)據(jù)集構(gòu)建162
10.4.2數(shù)據(jù)集處理與評(píng)價(jià)指標(biāo)163
10.4.3模型性能比較164
10.4.4注意力機(jī)制的可視化167
10.5本章小結(jié)168
思考題168
第11章總結(jié)與展望169
11.1短文關(guān)系抽取總結(jié)169
11.1.1貢獻(xiàn)和創(chuàng)新點(diǎn)170
11.1.2現(xiàn)有問題討論171
11.2彈幕評(píng)論挖掘研究總結(jié)172
11.3展望174
思考題176
參考文獻(xiàn)177
彩圖