《自然語言處理的Python實(shí)踐》通過5章內(nèi)容深入解讀了自然語言處理(NLP)的文本數(shù)據(jù)處理方法和行業(yè)實(shí)際應(yīng)用。其中討論了文本數(shù)據(jù)的根本問題所在和在文本數(shù)據(jù)中如何提取信息、提取哪種信息等,同時(shí)通過第2~5章,重點(diǎn)講解了客戶服務(wù)行業(yè)、在線評(píng)論、銀行與金融服務(wù)及保險(xiǎn)行業(yè)、虛擬助手四大NLP重點(diǎn)領(lǐng)域的實(shí)際應(yīng)用方法,其中詳細(xì)解讀了意圖挖掘、基于ML的監(jiān)督學(xué)習(xí)、情感分析與挖掘、Word2Vec、CBOW、LSTM、編碼器-解碼器模型框架和當(dāng)今NLP領(lǐng)域解決問題效果最好的BERT模型等關(guān)鍵技術(shù)方法。內(nèi)容全面,案例真實(shí)。本書案例均直接深入到各行業(yè),讀者在閱讀學(xué)習(xí)過程中,能通過書中相應(yīng)的代碼和案例思路,真正解決實(shí)際工作中遇到的問題。
本書適合各個(gè)行業(yè)自然語言處理方向的技術(shù)人員閱讀學(xué)習(xí),也適合開設(shè)自然語言處理課程的院校師生及計(jì)算機(jī)專業(yè)教學(xué)參考使用。
吳偉國,無黨派人士。哈爾濱工業(yè)大學(xué)教授,博士生導(dǎo)師,機(jī)電控制及自動(dòng)化學(xué)科工學(xué)博士,日本國立名古屋大學(xué)微系統(tǒng)工學(xué)博士后研究員。長期從事工業(yè)機(jī)器人、仿生仿人機(jī)器人及智能運(yùn)動(dòng)控制、人工智能、人工情感等方面研究。作為項(xiàng)目負(fù)責(zé)人先后主持完成國家自然科學(xué)基金、國家863計(jì)劃、國家重點(diǎn)實(shí)驗(yàn)室、教育部歸國留學(xué)基金項(xiàng)目以及參與完成各類項(xiàng)目共10余項(xiàng)。主持“十三五”國家重點(diǎn)研發(fā)計(jì)劃項(xiàng)目課題、國家自然科學(xué)基金重點(diǎn)課題子課題各1項(xiàng)。發(fā)表學(xué)術(shù)論文80余篇,參編“十一五”國家級(jí)規(guī)劃教材1部,著有國家出版基金項(xiàng)目資助著作3部,以第1發(fā)明人獲發(fā)明專利權(quán)20項(xiàng),獲部級(jí)科技進(jìn)步一、二等獎(jiǎng)各1項(xiàng)。
第1章 數(shù)據(jù)類型 001
1.1 搜索 002
1.2 評(píng)論 003
1.3 社交媒體中的帖子/博客 005
1.4 聊天數(shù)據(jù) 006
1.4.1 私人聊天 006
1.4.2 商務(wù)聊天和語音通話數(shù)據(jù) 007
1.5 SMS(短信)數(shù)據(jù) 008
1.6 內(nèi)容數(shù)據(jù) 009
1.7 IVR(交互式語音應(yīng)答)話語數(shù)據(jù) 010
1.8 數(shù)據(jù)中的有用信息 010
第2章 NLP在客戶服務(wù)中的應(yīng)用 013
2.1 語音通話 014
2.2 聊天 015
2.3 票證數(shù)據(jù) 016
2.4 郵件數(shù)據(jù) 016
2.5 客戶需求 018
2.5.1 意圖挖掘 018
2.5.2 意圖理解的熱門詞匯 019
2.5.3 詞云 021
2.5.4 主題分類規(guī)則 024
2.6 基于機(jī)器學(xué)習(xí)的監(jiān)督學(xué)習(xí) 028
2.6.1 獲取人工標(biāo)記的數(shù)據(jù) 028
2.6.2 分詞 030
2.6.3 文檔詞條矩陣 031
2.6.4 數(shù)據(jù)標(biāo)準(zhǔn)化 035
2.7 替換某些模式 036
2.8 識(shí)別并標(biāo)注問題所在的行 040
2.9 熱門客戶查詢 041
2.10 熱門客戶滿意度(CSAT)驅(qū)動(dòng)器 043
2.11 熱門凈推薦值(NPS)驅(qū)動(dòng)器 045
2.12 深入了解銷售對(duì)話 050
2.12.1 銷售對(duì)話中的熱門產(chǎn)品 050
2.12.2 未交易的原因 051
2.12.3 調(diào)查評(píng)論分析 052
2.12.4 挖掘語音記錄 052
第3章 NLP在在線評(píng)論中的應(yīng)用 059
3.1 情感分析 060
3.2 情感挖掘 061
3.3 方法1:基于詞典的方法 062
3.4 方法2:基于規(guī)則的方法 066
3.4.1 觀察結(jié)果1 066
3.4.2 觀察結(jié)果2 067
3.4.3 觀察結(jié)果3 067
3.4.4 觀察結(jié)果4 068
3.4.5 總體得分 069
3.4.6 處理觀察結(jié)果 070
3.4.7 情緒分析庫 085
3.5 方法3:基于機(jī)器學(xué)習(xí)的方法(神經(jīng)網(wǎng)絡(luò)) 086
3.5.1 語料庫的特征 087
3.5.2 構(gòu)建神經(jīng)網(wǎng)絡(luò) 091
3.5.3 加以完善 093
3.6 屬性提取 093
3.6.1 步驟1:使用正則表達(dá)式進(jìn)行規(guī)范化 095
3.6.2 步驟2:提取名詞形式 097
3.6.3 步驟3:創(chuàng)建映射文件 098
3.6.4 步驟4:將每個(gè)評(píng)論映射到屬性 100
3.6.5 步驟5:品牌分析 101
第4章 NLP在銀行、金融服務(wù)和保險(xiǎn)業(yè)(BFSI)的應(yīng)用 109
4.1 NLP之于風(fēng)險(xiǎn)控制 110
4.1.1 方法1:使用現(xiàn)有的庫 111
4.1.2 方法2:提取名詞短語 113
4.1.3 方法3:訓(xùn)練自己的模型 115
4.1.4 模型應(yīng)用 142
4.2 NLP在銀行、金融服務(wù)和保險(xiǎn)業(yè)的其他應(yīng)用案例 157
4.2.1 短信數(shù)據(jù) 157
4.2.2 銀行業(yè)的自然語言生成 158
第5章 NLP在虛擬助手中的應(yīng)用 163
5.1 網(wǎng)絡(luò)機(jī)器人(Bot程序)種類 164
5.2 經(jīng)典方法 165
5.2.1 LSTM概述 169
5.2.2 LSTM的應(yīng)用 173
5.2.3 時(shí)間分布層 174
5.3 生成響應(yīng)法 178
5.3.1 編碼器-解碼器模型框架 179
5.3.2 數(shù)據(jù)集 180
5.3.3 框架的實(shí)現(xiàn) 180
5.3.4 編碼器-解碼器模型框架的訓(xùn)練 189
5.3.5 編碼器輸出 192
5.3.6 解碼器輸入 192
5.3.7 預(yù)處理 195
5.3.8 雙向LSTM 200
5.4 BERT(基于轉(zhuǎn)換器的雙向編碼表征) 202
5.4.1 語言模型和微調(diào) 202
5.4.2 BERT概述 203
5.4.3 微調(diào)BERT以構(gòu)建分類器 208
5.5 構(gòu)建網(wǎng)上對(duì)話機(jī)器人的更多細(xì)微差別 211
5.5.1 單輪對(duì)話和多輪對(duì)話的比較 211
5.5.2 多語言網(wǎng)上機(jī)器人 213