本書(shū)闡述詞法分析、文本分類(lèi)、文本聚類(lèi)、文本檢索、垃圾郵件過(guò)濾、情感分析、個(gè)性化推薦等文本分析與文本挖掘方面的理論方法。人工智能技術(shù)與互聯(lián)網(wǎng)的發(fā)展更是為該領(lǐng)域研究提出新的需求,書(shū)中相關(guān)理論和技術(shù)可以直接用于解決具體文本分析與文本挖掘的問(wèn)題,也可以為進(jìn)一步研究提供理論方法基礎(chǔ)。本書(shū)包括理論、技術(shù),既適合理論方法的學(xué)習(xí),又適合工程實(shí)踐。本書(shū)配套軟件、更多案例、技術(shù)文檔、配套PPT課件等請(qǐng)登錄和查詢(xún)。
更多科學(xué)出版社服務(wù),請(qǐng)掃碼獲取。
目錄
第1章 統(tǒng)計(jì)中文分詞技術(shù) 1
1.1 詞法分析問(wèn)題 1
1.2 詞典與基于規(guī)則分詞 4
1.3 仿詞識(shí)別與最少分詞技術(shù) 7
1.4 基于詞網(wǎng)格的N-gram統(tǒng)計(jì)分詞技術(shù) 11
1.5 數(shù)據(jù)平滑與專(zhuān)業(yè)詞抽取 18
1.6 本章小結(jié) 25
第2章 詞性標(biāo)注與序列標(biāo)注 27
2.1 三個(gè)序列標(biāo)注問(wèn)題 27
2.2 隱馬爾可夫序列標(biāo)注 31
2.3 CRF模型與序列標(biāo)注 39
2.4 CRF中文詞性標(biāo)注 43
2.5 組合分類(lèi)器的序列標(biāo)注方法 46
2.6 實(shí)驗(yàn)結(jié)果與分析 52
2.7 本章小結(jié) 56
第3章 命名實(shí)體識(shí)別 58
3.1 中文命名實(shí)體識(shí)別特點(diǎn)與任務(wù)描述 58
3.2 ME模型及其適用性 60
3.3 基于ME模型的中文命名實(shí)體識(shí)別 64
3.4 雙層混合模型方法研究 70
3.5 實(shí)驗(yàn)結(jié)果與分析 74
3.6 本章小結(jié) 78
第4章 文本分類(lèi)技術(shù) 80
4.1 文本的向量空間模型 80
4.2 文本相似度與kNN分類(lèi) 85
4.3 樸素貝葉斯文本分類(lèi) 93
4.4 樸素貝葉斯分類(lèi)中的特征缺失補(bǔ)償策略 96
4.5 基于SVM的文本分類(lèi) 102
4.6 基于分類(lèi)技術(shù)的歧義消解問(wèn)題 107
4.7 本章小結(jié) 112
第5章 文本聚類(lèi)技術(shù) 114
5.1 聚類(lèi)方法與文本聚類(lèi)問(wèn)題 114
5.2 k-均值與k-中心點(diǎn)文本聚類(lèi)方法 119
5.3 文本層次聚類(lèi)方法 124
5.4 基于聚類(lèi)技術(shù)的詞義分析 126
5.5 其他聚類(lèi)方法 130
5.6 本章小結(jié) 133
第6章 文本檢索技術(shù) 135
6.1 Web檢索系統(tǒng)構(gòu)成與文本檢索的評(píng)價(jià) 135
6.2 信息檢索模型與布爾模型 138
6.3 向量空間模型與相關(guān)性反饋檢索模型 140
6.4 擴(kuò)展的布爾模型與概率模型 145
6.5 信息檢索與信息過(guò)濾及信息推薦的關(guān)系 149
6.6 本章小結(jié) 153
第7章 垃圾郵件過(guò)濾與情感分析 155
7.1 垃圾郵件過(guò)濾問(wèn)題與框架 155
7.2 樸素貝葉斯垃圾郵件過(guò)濾方法 159
7.3 ME模型與SVM垃圾郵件過(guò)濾方法 162
7.4 情感分析問(wèn)題 167
7.5 情感分析方法 172
7.6 本章小結(jié) 181
第8章 個(gè)性化協(xié)同過(guò)濾推薦技術(shù) 183
8.1 推薦問(wèn)題提出 183
8.2 通用推薦與個(gè)性化推薦 188
8.3 基本協(xié)同過(guò)濾推薦方法 192
8.4 基于SVD的協(xié)同過(guò)濾推薦 200
8.5 改進(jìn)協(xié)同過(guò)濾推薦方法 207
8.6 本章小結(jié) 214
第8第9章 組合推薦技術(shù) 215
9.1 基于內(nèi)容的推薦技術(shù) 215
9.2 基于分類(lèi)技術(shù)的推薦方法 219
9.3 基于推理的推薦技術(shù) 230
9.4 混合推薦方法 238
9.5 本章小結(jié) 242
參考文獻(xiàn) 243