AI智能語音技術與產(chǎn)業(yè)創(chuàng)新實踐
本書從技術、應用和產(chǎn)業(yè)3個維度為切入點,對智能語音語義領域相關的熱點和趨勢展開研究。本書以“人與機器的對話”開篇,講述人類語音生成、傳播和感知的過程,引發(fā)對于機器智能語音聽說的思考,進而闡述技術探索發(fā)展史;然后,分析了以語音交互為核心的技術現(xiàn)狀,綜合剖析提出全雙工、端到端模型構建、語音假冒攻擊等熱點;其次,從政策、投融資和產(chǎn)業(yè)規(guī)模上,分析整體智能語音產(chǎn)業(yè)環(huán)境,縱觀國內(nèi)外企業(yè)在相關技術和產(chǎn)品上的積極布局,介紹了智能語音的產(chǎn)業(yè)鏈和產(chǎn)業(yè)格局;最后,圍繞語音交互技術形成的應用,以智能汽車、智能家居、可穿戴設備、智能客服、醫(yī)療、教育等諸多細分領域為代表,提出“AI+基礎服務”“AI+硬件設備”“AI+垂直行業(yè)”的3種應用轉(zhuǎn)化參考模式,并列舉實際具體案例和解決方案。
本書適合從事人工智能技術研發(fā)、產(chǎn)品應用、市場規(guī)劃的工程技術人員和管理人員參考使用,也可作為高等院校人工智能相關的專業(yè)師生參考。同時,也適合對人工智能語音技術感興趣的相關人員閱讀。
1.中國信息通信研究院、科大訊飛、清華大學等多位大咖推薦作序。
2.知識性:本書涉及智能語音各項前沿技術,涵蓋了語音交互、聲紋識別、全雙工等多項新技術。
3.豐富性:本書涵蓋了技術、產(chǎn)業(yè)和應用3個方面,介紹智能語音全鏈條和各環(huán)節(jié)的現(xiàn)狀趨勢。
4.系統(tǒng)性:本書介紹人類語音聽說和機器語音聽說的異同,包含語音學、語言學和計算機等多學科交叉,系統(tǒng)了解技術的衍生變化。
5.實用性:本書匯集了智能語音應用在各領域、各場景的實際案例,從真實的案例中反映技術的產(chǎn)業(yè)賦能。
李蓀
研究方向包括智能語音技術、AI數(shù)據(jù)集構建、語音交互產(chǎn)品服務等,參與國家工信部、網(wǎng)信辦等部委課題專項《人工智能、基礎軟件聯(lián)盟和平臺建設》、《深度融合發(fā)展的戰(zhàn)略路徑研究》等,主持和參與研究課題《全球人工智能關鍵技術應用及產(chǎn)業(yè)化趨勢分析》、《智能語音技術產(chǎn)業(yè)熱點和發(fā)展趨勢》等,發(fā)表核心、EI期刊雜志論文3篇,牽頭起草語音合成、語音識別、聲紋識別、口語評測、語音采集等智能語音技術服務的多項國際和行業(yè)標準。
殷治綱
先后在各類期刊、會議、報紙發(fā)表論文三十余篇,參與大型語言數(shù)據(jù)庫項目二十余項,參加編寫國家技術質(zhì)量監(jiān)督局《漢語語音庫與標注通用規(guī)范》和《中國大百科全書·語言學卷》等,主持和參與國家社會科學基金、中國哲學社會科學創(chuàng)新工程、國家863計劃、國家973計劃、國家自然科學基金、國家十五課題、社科院重點學科、美國國家科學基金NSF、歐盟TC-STAR項目等國家和國際科研項目,并參加與諾基亞、摩托羅拉、科大訊飛等國際語音公司聯(lián)合研究課題。研究興趣包括實驗語音學、語料庫語言學、自然語言處理、語言類型學、法律語言學、話語分析、語言戰(zhàn)略等內(nèi)容。
曾然然
2006年畢業(yè)于北京郵電大學,之后在Intel(中國)有限公司從事Intel通信芯片在中國區(qū)的業(yè)務發(fā)展,F(xiàn)在中國電信研究院從事人工智能,智能語音研發(fā)工作,在聲紋識別、多輪對話、語義分析和處理、AI技術商業(yè)部署等領域有豐富的技術研究和產(chǎn)品研發(fā)經(jīng)驗。2019年入選百度黃埔學院人工智能首席AI架構師,2019年1月受聘為北京工業(yè)大學計算機學院人工智能方向碩士研究生導師(兼職)。
目錄
第 1章 從人際交流到人機對話 001
1.1 語言“塑造”了人類 002
1.1.1 語言在人類進化過程中的作用 003
1.1.2 語言的功能 004
1.2 語言與語言科學 005
1.2.1 人類語言概況 005
1.2.2 和語言有關的科學與技術 007
1.3 語音的產(chǎn)生與感知 008
1.3.1 語音交互與言語鏈 008
1.3.2 語音的聲學基礎 009
1.3.3 語音產(chǎn)生的生理基礎 015
1.4 人與機器的對話 021
1.4.1 人類語言交際的轉(zhuǎn)向 021
1.4.2 語音的數(shù)字化表達 022
第 2章 智能語音基本技術 027
2.1 主流的語音交互技術 028
2.1.1 語音識別 029
2.1.2 聲紋識別 048
2.1.3 語音合成 060
2.1.4 自然語言處理 070
2.1.5 對話管理 082
2.1.6 角色分離 086
2.1.7 語音增強 091
2.2 深度學習成為加速器:新技術到“黑科技” 106
2.2.1 端到端技術 106
2.2.2 預訓練機制 110
2.2.3 模型壓縮和輕量化部署 117
第3章 智能語音產(chǎn)業(yè)發(fā)展 125
3.1 產(chǎn)業(yè)環(huán)境 126
3.1.1 產(chǎn)業(yè)發(fā)展歷程 126
3.1.2 重點政策解析 127
3.1.3 發(fā)展規(guī)劃布局 132
3.1.4 創(chuàng)新合作模式 133
3.2 市場及生態(tài) 134
3.2.1 行業(yè)市場價值逐漸釋放 134
3.2.2 生態(tài)格局呈現(xiàn)多元化 137
3.2.3 企業(yè)成長方面的一些思考 146
3.3 標準及規(guī)范 148
3.3.1 技術評估指標介紹 148
3.3.2 國內(nèi)外標準制定現(xiàn)狀 153
3.3.3 標準需求及發(fā)展趨勢 160
3.4 產(chǎn)業(yè)應用創(chuàng)新實踐 161
3.4.1 “AI語音+終端”:消費級市場潛力顯現(xiàn),
疫情催發(fā)新業(yè)態(tài) 162
3.4.2 “AI語音+服務”:智能語音深度賦能平臺
服務 171
3.4.3 “AI語音+場景”:突破價值釋放“最后
一公里” 180
第4章 AI語音與熱點話題和技術:千絲萬縷的聯(lián)系 207
4.1 語音+大數(shù)據(jù)+云 208
4.1.1 我們身邊的大數(shù)據(jù) 208
4.1.2 語音的特殊身份 209
4.1.3 數(shù)據(jù)類型與存儲 210
4.1.4 語音結(jié)構化 213
4.2 語音+安全 220
4.2.1 語音欺詐,又一個潘多拉盒子 220
4.2.2 知己知彼:了解和研究語音欺詐、攻擊
手段 221
4.2.3 降維打擊 :抗攻擊防欺詐的一張盾牌 225
4.2.4 國內(nèi)政策法規(guī)的保護臂膀 227
4.2.5 個人語音數(shù)據(jù)全生命周期的安全建議 228
4.3 語音+普惠服務 229
4.3.1 新技術的應用要做到普惠 229
4.3.2 智能語音技術可以提供什么樣的普惠服務 230
4.3.3 科技和人類的和諧共生 235
4.4 語音+多模態(tài)交互 235
4.4.1 語音交互新挑戰(zhàn)和探索 235
4.4.2 多模態(tài)交互成為趨勢 236
4.4.3 語音助手向智慧助手發(fā)展 237
結(jié)束語 239
參考文獻 245