基于集成學(xué)習(xí)的文本情感分類問題研究
本書是近年來作者對文本情感分類研究成果及經(jīng)驗的總結(jié)。本書針對文本情感分類中存在的高維數(shù)據(jù)、非均衡數(shù)據(jù)和無標(biāo)簽數(shù)據(jù)等問題,將泛化能力和適應(yīng)性較強的集成學(xué)習(xí)引入文本情感分類問題的研究中,系統(tǒng)比較各類集成學(xué)習(xí)方法在文本情感分析中的有效性,以此為基礎(chǔ)分別研究基于POS-RS的文本情感分類問題、基于非均衡數(shù)據(jù)分類的文本情感分類問題,以及基于半監(jiān)督學(xué)習(xí)的文本情感分類問題。
更多科學(xué)出版社服務(wù),請掃碼獲取。
目錄
第1章 緒論 1
1.1 研究背景 1
1.2 國內(nèi)外研究現(xiàn)狀及發(fā)展動態(tài)分析 2
1.2.1 文本情感分類相關(guān)研究 2
1.2.2 集成學(xué)習(xí)相關(guān)研究 4
1.3 研究目標(biāo) 5
1.4 研究內(nèi)容 6
1.5 研究方法 7
1.6 本書結(jié)構(gòu) 7
第2章 文本情感分類和機器學(xué)習(xí)理論研究 9
2.1 文本情感分類理論研究 9
2.1.1 文本情感分類概述 9
2.1.2 文本情感分類的主要任務(wù) 10
2.1.3 基于情感知識的方法 11
2.1.4 基于機器學(xué)習(xí)的方法 13
2.2 機器學(xué)習(xí)理論研究 18
2.2.1 機器學(xué)習(xí)概述 18
2.2.2 非均衡數(shù)據(jù)學(xué)習(xí) 26
2.2.3 半監(jiān)督學(xué)習(xí) 31
第3章 集成學(xué)習(xí)在文本情感分類中的比較研究 39
3.1 概述 39
3.2 集成學(xué)習(xí)在情感分類中的應(yīng)用 40
3.2.1 Bagging算法 40
3.2.2 Boosting算法 41
3.2.3 RS算法 42
3.3 實驗設(shè)計 43
3.3.1 數(shù)據(jù)集 43
3.3.2 評價標(biāo)準(zhǔn) 43
3.3.3 實驗過程 43
3.4 實驗結(jié)果分析與討論 44
3.4.1 實驗結(jié)果 45
3.4.2 從集成學(xué)習(xí)方法角度進行的分析和討論 58
3.4.3 從基學(xué)習(xí)器角度進行的分析和討論 64
3.4.4 從特征集角度進行的分析和討論 66
第4章 基于POS-RS的文本情感分類研究 69
4.1 概述 69
4.2 基于POS-RS的文本情感分類模型 70
4.2.1 特征選取 70
4.2.2 模型構(gòu)建 72
4.2.3 POS-RS算法 73
4.3 實驗設(shè)計 74
4.4 實驗結(jié)果分析與討論 75
4.4.1 實驗結(jié)果 76
4.4.2 分析與討論 76
第5章 電子商務(wù)中面向非均衡數(shù)據(jù)的文本情感分類研究 91
5.1 概述 91
5.2 基于詞性分析和非均衡數(shù)據(jù)分類的文本情感分類方法 92
5.2.1 電子商務(wù)中基于詞性分析的文本情感分類方法 92
5.2.2 電子商務(wù)中基于非均衡數(shù)據(jù)分類的文本情感分類方法 93
5.3 實驗設(shè)計 96
5.3.1 實驗數(shù)據(jù)集和評價指標(biāo) 96
5.3.2 實驗流程 97
5.4 實驗結(jié)果分析與討論 97
5.4.1 實驗結(jié)果整體分析 100
5.4.2 不同非均衡數(shù)據(jù)分類方法對比分析 100
5.4.3 留詞性和去詞性方法對比分析 103
第6章 基于IDSSL的文本情感分類研究 105
6.1 概述 105
6.2 基于IDSSL的文本情感分類模型 107
6.2.1 基于分歧的半監(jiān)督學(xué)習(xí)方法的文本情感分類建!107
6.2.2 基于分歧的半監(jiān)督學(xué)習(xí)方法的理論分析 108
6.2.3 基于IDSSL的文本情感分類方法 111
6.3 實驗設(shè)計 113
6.3.1 實驗數(shù)據(jù)集和評價指標(biāo) 113
6.3.2 實驗流程 113
6.4 實驗結(jié)果分析與討論 114
6.4.1 實驗結(jié)果 114
6.4.2 分析與討論 116
第7章 結(jié)論與展望 120
7.1 結(jié)論 120
7.2 展望 121
參考文獻 123
彩圖