隨著人工智能技術(shù)的發(fā)展,人類對智能化服務(wù)更加渴望,聊天機(jī)器人成為研發(fā)熱門之一。
《智能聊天機(jī)器人:核心技術(shù)與算法》從聊天機(jī)器人所涉及的多個(gè)方面出發(fā),先理論后實(shí)踐,讓讀者不僅能了解其中的原理,還能自己動(dòng)手編程。
《智能聊天機(jī)器人:核心技術(shù)與算法》共9章,第1章以該領(lǐng)域的背景知識(shí)作為開篇,重點(diǎn)介紹了聊天系統(tǒng)中的主要模塊;第2章闡述了語音識(shí)別和隱馬爾可夫模型;第3章側(cè)重于通用的自然語言處理技術(shù);第4章講解如何使用信息檢索技術(shù),來實(shí)現(xiàn)問答型的聊天系統(tǒng);第5章介紹一些主流的機(jī)器學(xué)習(xí)算法,以及如何使用這些算法來提升基于信息檢索的問答系統(tǒng);第6章介紹推薦系統(tǒng)相關(guān)的知識(shí)以及常見的推薦算法,并將其應(yīng)用到問答系統(tǒng)中;第7章介紹如何使用深度學(xué)習(xí)來優(yōu)化問答系統(tǒng);第8章講述了聊天系統(tǒng)的前沿領(lǐng)域——知識(shí)圖譜;第9章討論任務(wù)型和閑聊型聊天系統(tǒng)中更有挑戰(zhàn)性的幾個(gè)課題。
《智能聊天機(jī)器人:核心技術(shù)與算法》可為高等院校計(jì)算機(jī)科學(xué)、信息科學(xué)、電子工程和人工智能等領(lǐng)域的科研人員提供參考,也可作為相關(guān)專業(yè)本科生和研究生教學(xué)的參考書,對于從事深度學(xué)習(xí)及其應(yīng)用的開發(fā)人員同樣具有參考價(jià)值。
本書消除了智能聊天領(lǐng)域的門檻,目的是培養(yǎng)復(fù)合型技術(shù)人才。本書通過多個(gè)案例,逐步介紹聊天機(jī)器人開發(fā)各個(gè)階段可能遇到的技術(shù)難題、業(yè)務(wù)需求以及相對應(yīng)的技術(shù)解決方案和實(shí)踐解析,讓讀者身臨其境,探尋智能聊天機(jī)器人的奧秘。本書覆蓋面全,涵蓋了所有最關(guān)鍵的技術(shù)。可實(shí)踐性強(qiáng),通過大量實(shí)踐才能積累寶貴的經(jīng)驗(yàn),最大限度地根據(jù)理論知識(shí)彌補(bǔ)技術(shù)方案的空白。這有利于技術(shù)人員針對不同的業(yè)務(wù)需求,制定更為合理的技術(shù)方案。
毋庸置疑,聊天機(jī)器人是最近幾年最火的人工智能領(lǐng)域之一,各種智能家居和語音助手層出不窮。可是,中國真正有實(shí)力構(gòu)建此類系統(tǒng)的公司并不多。筆者閱讀了不少業(yè)界的觀察性文章,也走訪了一些業(yè)內(nèi)的專家,發(fā)現(xiàn)導(dǎo)致這一現(xiàn)狀的原因主要在于以下幾點(diǎn):
涉及的技術(shù)范圍廣,技術(shù)人才數(shù)量有限。聊天系統(tǒng)需要“理解”人類的語音和語意,然后進(jìn)行一定的“思考”,甚至幫助用戶“完成”任務(wù)。這其中就涉及了語音識(shí)別、自然語言處理和理解、信息檢索、推薦、知識(shí)圖譜、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等多個(gè)領(lǐng)域的專業(yè)知識(shí),而精通所有這些領(lǐng)域的人才少之又少。
發(fā)展速度快,技術(shù)含量高。如果說語音識(shí)別、自然語言處理和信息檢索領(lǐng)域相對成熟,那么機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、知識(shí)圖譜領(lǐng)域仍處于高速發(fā)展中,這類技術(shù)相對于普通的應(yīng)用開發(fā)而言,需要更多理論知識(shí)和實(shí)踐經(jīng)驗(yàn)的積累。而商業(yè)價(jià)值的挖掘程度,往往取決于使用的技術(shù)深度。越是鉆研得深入,所產(chǎn)生的價(jià)值就會(huì)越大。
成熟方案少。很多智能的和大數(shù)據(jù)的技術(shù)是免費(fèi)的,這對于盈利模式而言無疑是重大利好。不過代價(jià)就是其中存在穩(wěn)定性和易用性問題,F(xiàn)在有一些大型技術(shù)公司提供更成熟的解決方案,但是價(jià)格高昂,對于經(jīng)費(fèi)并不寬裕的初創(chuàng)公司而言,選擇余地太小。
以上這些因素,都會(huì)形成進(jìn)入智能聊天領(lǐng)域的門檻,而高門檻勢必導(dǎo)致相關(guān)技術(shù)在工業(yè)界應(yīng)用的步伐放緩。為了解決這個(gè)問題,企業(yè)需要培養(yǎng)自己的復(fù)合型技術(shù)人才,才能讓企業(yè)使用適合的工具、獲得準(zhǔn)確的數(shù)據(jù)、制定合理的實(shí)現(xiàn)方案。為此,筆者萌生了一個(gè)想法:通過本書幫助企業(yè)快速建立復(fù)合型團(tuán)隊(duì),并搭建基礎(chǔ)的智能聊天系統(tǒng)。筆者在寫作過程中,力求做到以下幾點(diǎn):
黃申,博士,2015年美國杰出人才,微軟學(xué)者,IBMExtremeBlue天才計(jì)劃成員。2006年博士畢業(yè)于上海交通大學(xué)計(jì)算機(jī)科學(xué)與工程專業(yè),師從俞勇教授,擁有20余篇國際論文和30多項(xiàng)國際專利。他有超過20年機(jī)器學(xué)習(xí)和大數(shù)據(jù)領(lǐng)域的從業(yè)經(jīng)驗(yàn),現(xiàn)任Glassdoor機(jī)器學(xué)習(xí)資深研發(fā)經(jīng)理,曾任職于LinkedIn全球數(shù)據(jù)科學(xué)部、微軟亞洲研究院、IBM研究院、eBay中國研發(fā)中心、1號(hào)店和***飛牛網(wǎng)。出版過《大數(shù)據(jù)架構(gòu)和算法實(shí)現(xiàn)之路:電商系統(tǒng)的技術(shù)實(shí)戰(zhàn)》《大數(shù)據(jù)架構(gòu)商業(yè)之路:從業(yè)務(wù)需求到技術(shù)方案》《程序員的數(shù)學(xué)》等技術(shù)書籍和專欄,累計(jì)讀者數(shù)萬人。
第1章 聊天機(jī)器人概述
1.1 聊天機(jī)器人的發(fā)展歷史
1.2 聊天機(jī)器人的類型和應(yīng)用
1.3 聊天機(jī)器人的模塊和框架
第2章 自動(dòng)語音識(shí)別
2.1 自動(dòng)語音識(shí)別的發(fā)展概述
2.2 隱馬爾可夫模型
2.2.1 概率論基礎(chǔ)知識(shí)
2.2.2 隱馬爾可夫模型是怎么來的
2.2.3 求解隱馬爾可夫模型
2.3 Python實(shí)戰(zhàn)
第3章 自然語言處理
3.1 自然語言處理的發(fā)展概述
3.2 常見的自然語言處理技術(shù)
3.2.1 停用詞
3.2.2 同義詞和近義詞
3.2.3 多元語法
3.2.4 詞袋模型和TF-IDF機(jī)制
3.2.5 語義相關(guān)的詞
3.2.6 詞性標(biāo)注
3.2.7 實(shí)體識(shí)別
3.2.8 語法分析和語義分析
3.3 針對中英文的特殊處理
3.3.1 取詞干和詞形還原
3.3.2 中文分詞
第4章 基于信息檢索的問答系統(tǒng)
4.1 問答系統(tǒng)的發(fā)展概述
4.2 信息檢索
4.2.1 如何高效地找到信息
4.2.2 相關(guān)性模型
4.2.3 其他擴(kuò)展
4.2.4 基于信息檢索的問答系統(tǒng)架構(gòu)
4.3 基于Elasticsearch搜索引擎的問答系統(tǒng)
4.3.1 軟件和數(shù)據(jù)的準(zhǔn)備
4.3.2 Elasticsearch的基本概念和使用
4.3.3 在Elasticsearch中處理自然語言
4.3.4 自定義Elasticsearch的排序
4.3.5 Elasticsearch中搜索結(jié)果的統(tǒng)計(jì)
4.3.6 Elasticsearch集群
4.3.7 集成的問答系統(tǒng)
……
第5章 用機(jī)器學(xué)習(xí)提升基于信息檢索的問答系統(tǒng)
第6章 基于社區(qū)和推薦的問答系統(tǒng)
第7章 使用深度學(xué)習(xí)加強(qiáng)問答系統(tǒng)
第8章 使用知識(shí)圖譜構(gòu)建問答系統(tǒng)
第9章 打造任務(wù)型和閑聊型聊天系統(tǒng)