現(xiàn)代語(yǔ)音信號(hào)處理(Python版)
定 價(jià):79 元
叢書(shū)名:高等院校通信與信息專(zhuān)業(yè)系列教材
- 作者:梁瑞宇
- 出版時(shí)間:2021/12/1
- ISBN:9787111694755
- 出 版 社:機(jī)械工業(yè)出版社
- 中圖法分類(lèi):TN912.3
- 頁(yè)碼:
- 紙張:膠版紙
- 版次:
- 開(kāi)本:16開(kāi)
本書(shū)介紹了現(xiàn)代語(yǔ)音信號(hào)處理的基礎(chǔ)、原理、方法和應(yīng)用,并且給出一些相關(guān)算法的Python庫(kù)和調(diào)用函數(shù)。全書(shū)共15章,第1章介紹了語(yǔ)音信號(hào)處理的發(fā)展歷程、人工智能基礎(chǔ)和相關(guān)研究方向;第2~4章介紹了語(yǔ)音信號(hào)處理的一些基礎(chǔ)理論、方法和參數(shù);第5章介紹了神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)的基礎(chǔ)知識(shí);第6~15章將語(yǔ)音信號(hào)處理的研究方向分為前端處理(包括語(yǔ)音增強(qiáng)、回聲消除、聲源定位和波束形成)、后端應(yīng)用(包括語(yǔ)音識(shí)別、說(shuō)話人識(shí)別和語(yǔ)音情感計(jì)算)和其他研究(包括語(yǔ)音合成與轉(zhuǎn)換、語(yǔ)音隱藏和助聽(tīng)器聲信號(hào)處理)三個(gè)部分,并介紹了相關(guān)研究的基礎(chǔ)理論和算法原理。在附錄中,介紹了學(xué)習(xí)Python語(yǔ)言的PyCharm軟件的快速使用教程,并對(duì)文中常用的Python庫(kù)進(jìn)行了說(shuō)明。
本書(shū)可作為計(jì)算機(jī)和通信與信息系統(tǒng)等學(xué)科相關(guān)專(zhuān)業(yè)的高年級(jí)本、專(zhuān)科學(xué)生和研究生的教材或教學(xué)參考用書(shū),也可作為從事語(yǔ)音信號(hào)處理的科研工程技術(shù)人員的輔助讀物和參考用書(shū)。
本書(shū)較全面地反映了現(xiàn)代語(yǔ)音信號(hào)處理的主要內(nèi)容和發(fā)展方向,主要面向電子信息類(lèi)、自動(dòng)化類(lèi)、計(jì)算機(jī)類(lèi)等學(xué)科有關(guān)專(zhuān)業(yè)的高年級(jí)本科生和研究生,也可以作為從事語(yǔ)音信號(hào)處理這一領(lǐng)域技術(shù)人員的參考用書(shū)。因此,本書(shū)在內(nèi)容上強(qiáng)調(diào)基本概念和基本理論方法的掌握,并突出各部分的相互聯(lián)系。此外,考慮到語(yǔ)音信號(hào)處理的實(shí)用性很強(qiáng),以及當(dāng)前人工智能技術(shù)的發(fā)展,本書(shū)在介紹基本理論和基本算法的基礎(chǔ)上,給出了相應(yīng)的Python代碼,使學(xué)習(xí)人員可以邊學(xué)習(xí)理論邊實(shí)踐,有助于知識(shí)的理解和記憶。
前言
語(yǔ)音信號(hào)處理是以語(yǔ)音語(yǔ)言學(xué)和數(shù)字信號(hào)處理為基礎(chǔ)而形成的一門(mén)涉及面很廣的綜合性學(xué)科,它與心理學(xué)、生理學(xué)、計(jì)算機(jī)科學(xué)、通信與信息科學(xué)以及模式識(shí)別和人工智能等學(xué)科都有著非常密切的關(guān)系。近年來(lái),伴隨著深度學(xué)習(xí)、高性能運(yùn)算平臺(tái)和大數(shù)據(jù)的發(fā)展,智能語(yǔ)音技術(shù)的研發(fā)瓶頸紛紛被突破,已成為人工智能產(chǎn)業(yè)鏈上的關(guān)鍵一環(huán),深深地吸引廣大科學(xué)工作者不斷進(jìn)行研究和探討。
本書(shū)較全面地反映了現(xiàn)代語(yǔ)音信號(hào)處理的主要內(nèi)容和發(fā)展方向,主要面向電子信息類(lèi)、自動(dòng)化類(lèi)、計(jì)算機(jī)類(lèi)等學(xué)科有關(guān)專(zhuān)業(yè)的高年級(jí)本科生和研究生,也可以作為從事語(yǔ)音信號(hào)處理這一領(lǐng)域技術(shù)人員的參考用書(shū)。因此,本書(shū)在內(nèi)容上強(qiáng)調(diào)基本概念和基本理論方法的掌握,并突出各部分的相互聯(lián)系。此外,考慮到語(yǔ)音信號(hào)處理的實(shí)用性很強(qiáng),以及當(dāng)前人工智能技術(shù)的發(fā)展,本書(shū)在介紹基本理論和基本算法的基礎(chǔ)上,給出了相應(yīng)的Python代碼,使學(xué)習(xí)人員可以邊學(xué)習(xí)理論邊實(shí)踐,有助于知識(shí)的理解和記憶。
本書(shū)的參考學(xué)時(shí)為本科生32學(xué)時(shí)、研究生40學(xué)時(shí),可以根據(jù)不同的教學(xué)要求對(duì)內(nèi)容進(jìn)行適當(dāng)取舍,靈活安排授課學(xué)時(shí)數(shù)。全書(shū)分為15章,具體內(nèi)容如下。
第1章簡(jiǎn)要介紹了語(yǔ)音信號(hào)處理的發(fā)展歷程、當(dāng)前的主要研究方向、人工智能與語(yǔ)音處理的聯(lián)系,以及本書(shū)的章節(jié)安排情況。
第2章介紹了語(yǔ)音信號(hào)處理的基礎(chǔ)知識(shí),包括語(yǔ)音的產(chǎn)生與感知、語(yǔ)音信號(hào)產(chǎn)生的數(shù)學(xué)模型、語(yǔ)音信號(hào)的數(shù)字化和語(yǔ)音信號(hào)的基本表征方法等。
第3章介紹了語(yǔ)音信號(hào)的預(yù)處理方法(包括分幀與加窗、消除趨勢(shì)項(xiàng)和直流分量、預(yù)加重和去加重)以及4種語(yǔ)音信號(hào)的基本分析方法,包括時(shí)域分析、頻域分析、倒譜分析和線性預(yù)測(cè)分析。
第4章介紹了3種語(yǔ)音信號(hào)的特征提取技術(shù),包括端點(diǎn)檢測(cè)、基音周期估計(jì)和共振峰估計(jì)。其中,端點(diǎn)檢測(cè)算法包括雙門(mén)限法、自相關(guān)法、譜熵法和比例法;基音周期估計(jì)算法包括自相關(guān)法、倒譜法以及后處理方法;共振峰估計(jì)算法包括倒譜分析法和線性預(yù)測(cè)法。
第5章介紹了神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)的相關(guān)基礎(chǔ)知識(shí),包括神經(jīng)元的構(gòu)成、誤差逆?zhèn)鞑ニ惴ㄒ约?種典型的深度學(xué)習(xí)網(wǎng)絡(luò)架構(gòu),即前饋神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)。
第6章介紹了語(yǔ)音增強(qiáng)的基本原理和典型算法。首先介紹了人耳感知特性、語(yǔ)音與噪聲特性和語(yǔ)音質(zhì)量評(píng)價(jià)標(biāo)準(zhǔn),然后依次介紹了3種語(yǔ)音增強(qiáng)算法:譜減法、維納濾波和基于深度學(xué)習(xí)的語(yǔ)音增強(qiáng)方法。
第7章介紹了回聲消除的基本原理和典型算法。首先介紹了回聲消除的基本模型以及性能的評(píng)價(jià)標(biāo)準(zhǔn),然后依次介紹5種回聲消除算法,后介紹了嘯叫檢測(cè)與抑制方法。
第8章介紹了聲源定位的基本原理。依次介紹了雙耳聽(tīng)覺(jué)定位原理及方法和3種基于傳聲器陣列的聲源定位方法,即基于輸出功率的可控波束形成算法、基于到達(dá)時(shí)間差的定位算法和基于高分辨率譜估計(jì)的定位算法。此外,還介紹了傳聲器陣列模型以及可用于聲源定位研究的房間回響模型。
第9章介紹了波束形成技術(shù)的基本原理和典型算法。首先介紹了波束形成的基本理論,然后分別介紹了幾種經(jīng)典的波束形成器和自適應(yīng)波束形成,后介紹了幾種后置濾波算法。
第10章介紹了語(yǔ)音識(shí)別算法。首先介紹了語(yǔ)音識(shí)別原理與系統(tǒng)構(gòu)成,接著介紹了基于動(dòng)態(tài)時(shí)間規(guī)整的語(yǔ)音識(shí)別系統(tǒng)和基于隱馬爾可夫模型的語(yǔ)音識(shí)別系統(tǒng),然后介紹了基于人工智能的語(yǔ)音識(shí)別的相關(guān)知識(shí),后介紹了語(yǔ)音識(shí)別算法的性能評(píng)價(jià)指標(biāo)。
第11章介紹了說(shuō)話人識(shí)別算法。首先介紹了說(shuō)話人識(shí)別的原理,然后介紹了兩種典型的說(shuō)話人識(shí)別系統(tǒng),分別是基于VQ的說(shuō)話人識(shí)別系統(tǒng)和基于GMM的說(shuō)話人識(shí)別系統(tǒng)。接著介紹了基于深度學(xué)習(xí)的說(shuō)話人識(shí)別的相關(guān)知識(shí),包括兩種經(jīng)典的基于深度學(xué)習(xí)的說(shuō)話人識(shí)別算法,后,介紹了說(shuō)話人識(shí)別的研究難點(diǎn)。
第12章介紹了語(yǔ)音信號(hào)中的情感信息處理的基本原理。首先介紹了情感理論和語(yǔ)音數(shù)據(jù)庫(kù)的建立方法,然后介紹了一些常用的語(yǔ)音情感特征及其提取算法,接著介紹了兩種語(yǔ)音情感識(shí)別算法,包括K近鄰分類(lèi)器和支持向量機(jī)。后介紹了基于深度學(xué)習(xí)的情感識(shí)別算法,并對(duì)未來(lái)的研究進(jìn)行了展望。
第13章介紹了語(yǔ)音合成與轉(zhuǎn)換的基本原理。首先介紹了幀合成技術(shù),然后介紹了3種語(yǔ)音合成算法,包括線性預(yù)測(cè)合成法、共振峰合成法和基音同步疊加技術(shù),接著介紹了語(yǔ)音信號(hào)的變速和變調(diào)的原理和實(shí)現(xiàn)方法,后介紹了3種基于深度學(xué)習(xí)的語(yǔ)言合成模型。
第14章介紹了語(yǔ)音隱藏的基本原理。首先介紹了信息隱藏的基礎(chǔ)理論,然后介紹了兩種語(yǔ)音信息隱藏算法:低比特位編碼法和回聲隱藏算法,后介紹了算法的常用評(píng)價(jià)指標(biāo)以及未來(lái)的研究方向。
第15章介紹了助聽(tīng)器聲信號(hào)處理的相關(guān)知識(shí)。首先介紹了聽(tīng)力損失與語(yǔ)言理解障礙的關(guān)系,然后介紹了與助聽(tīng)器相關(guān)的三種關(guān)鍵算法:多通道響度補(bǔ)償算法、回聲抑制算法以及降頻算法,后對(duì)未來(lái)的研究方向進(jìn)行了展望。
附錄提供了PyCharm軟件的快速使用教程,并對(duì)文中常用的Python庫(kù)進(jìn)行了說(shuō)明。
本書(shū)主要由梁瑞宇、王青云、謝躍和唐閨臣編著,并由梁瑞宇統(tǒng)稿。本書(shū)被列入2020年江蘇省高等學(xué)校重點(diǎn)教材建設(shè)計(jì)劃(蘇高教會(huì)[2020]39號(hào))。編者參考和引用了一些學(xué)者的研究成果,具體見(jiàn)參考文獻(xiàn)。在此,編者向這些文獻(xiàn)的著作者表示敬意和感謝。同時(shí),本書(shū)的出版得到了東南大學(xué)趙力教授的悉心指導(dǎo),同時(shí)誠(chéng)摯感謝給予此書(shū)指導(dǎo)和幫助的老師以及東南大學(xué)團(tuán)隊(duì)的碩士研究生。
語(yǔ)音信號(hào)處理是一門(mén)理論性強(qiáng)、實(shí)用面廣、內(nèi)容新、難度大的交叉學(xué)科,同時(shí)這門(mén)學(xué)科又處于快速發(fā)展之中,盡管編者在編寫(xiě)過(guò)程中始終注重理論緊密聯(lián)系實(shí)際,力求以盡可能簡(jiǎn)明、通俗的語(yǔ)言,深入淺出、通俗易懂地將這門(mén)學(xué)科介紹給讀者,但因水平有限、時(shí)間較倉(cāng)促,書(shū)中疏漏與不妥之處在所難免,敬請(qǐng)廣大讀者批評(píng)指正。
前言
第1章緒論
1.1語(yǔ)音信號(hào)的發(fā)展歷程
1.2語(yǔ)音信號(hào)處理的研究方向
1.3人工智能與語(yǔ)音處理
1.4本書(shū)結(jié)構(gòu)
第2章語(yǔ)音信號(hào)處理的基礎(chǔ)知識(shí)
2.1語(yǔ)音的產(chǎn)生與感知
2.2語(yǔ)音信號(hào)產(chǎn)生的數(shù)學(xué)模型
2.3語(yǔ)音信號(hào)的數(shù)字化
2.4語(yǔ)音信號(hào)的表征
2.5思考與復(fù)習(xí)題
第3章語(yǔ)音信號(hào)分析方法
3.1語(yǔ)音信號(hào)預(yù)處理
3.2語(yǔ)音信號(hào)的時(shí)域分析
3.3語(yǔ)音信號(hào)的頻域分析
3.4語(yǔ)音信號(hào)的倒譜分析
3.5語(yǔ)音信號(hào)的線性預(yù)測(cè)分析
3.6思考與復(fù)習(xí)題
第4章語(yǔ)音信號(hào)特征提取技術(shù)
4.1端點(diǎn)檢測(cè)
4.2基音周期估計(jì)
4.3共振峰估計(jì)
4.4思考與復(fù)習(xí)題
第5章神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)
5.1神經(jīng)網(wǎng)絡(luò)及其發(fā)展
5.2神經(jīng)元
5.3誤差逆?zhèn)鞑ニ惴?br>5.4前饋神經(jīng)網(wǎng)絡(luò)
5.5卷積神經(jīng)網(wǎng)絡(luò)
5.6循環(huán)神經(jīng)網(wǎng)絡(luò)
5.7常用的深度學(xué)習(xí)框架
5.8思考與復(fù)習(xí)題
第6章語(yǔ)音增強(qiáng)
6.1基礎(chǔ)知識(shí)
6.2譜減法
6.3維納濾波
6.4基于深度學(xué)習(xí)的語(yǔ)音增強(qiáng)方法
6.5思考與復(fù)習(xí)題
第7章回聲消除
7.1回聲消除基礎(chǔ)知識(shí)
7.2回聲消除算法
7.2.1LMS算法
7.3嘯叫檢測(cè)與抑制
7.4總結(jié)與展望
7.5思考與復(fù)習(xí)題
第8章聲源定位
8.1雙耳聽(tīng)覺(jué)定位原理及方法
8.2傳聲器陣列模型
8.3房間混響模型
8.4基于傳聲器陣列的聲源定位方法
8.5總結(jié)與展望
8.6思考與復(fù)習(xí)題
第9章波束形成技術(shù)
9.1基本理論
9.2固定波束形成器
9.3自適應(yīng)波束形成
9.4后置濾波
9.5思考與復(fù)習(xí)題
第10章語(yǔ)音識(shí)別
10.1基本理論
10.2語(yǔ)音識(shí)別原理與系統(tǒng)構(gòu)成
10.3基于動(dòng)態(tài)時(shí)間規(guī)整的語(yǔ)音識(shí)別系統(tǒng)
10.4基于隱馬爾可夫模型的語(yǔ)音識(shí)別系統(tǒng)
10.5人工智能與語(yǔ)音識(shí)別
10.6性能評(píng)價(jià)指標(biāo)
10.7思考與復(fù)習(xí)題
第11章說(shuō)話人識(shí)別
11.1說(shuō)話人識(shí)別的原理
11.2應(yīng)用VQ的說(shuō)話人識(shí)別系統(tǒng)
11.3應(yīng)用GMM的說(shuō)話人識(shí)別系統(tǒng)
11.4基于深度學(xué)習(xí)的說(shuō)話人識(shí)別
11.5總結(jié)與展望
11.6思考與復(fù)習(xí)題
第12章語(yǔ)音情感計(jì)算
12.1情感的心理學(xué)理論
12.2語(yǔ)音情感數(shù)據(jù)庫(kù)
12.3情感的聲學(xué)特征分析
12.4語(yǔ)音情感識(shí)別經(jīng)典算法
12.5深度學(xué)習(xí)模型
12.6語(yǔ)音情感計(jì)算的應(yīng)用與展望
12.7思考與復(fù)習(xí)題
第13章語(yǔ)音合成與轉(zhuǎn)換
13.1幀合成技術(shù)
13.2經(jīng)典語(yǔ)音合成算法
13.3語(yǔ)音信號(hào)的變速和變調(diào)
13.4基于深度學(xué)習(xí)的語(yǔ)音合成模型
13.5總結(jié)與展望
13.6思考與復(fù)習(xí)題
第14章語(yǔ)音隱藏
14.1信息隱藏基礎(chǔ)
14.2語(yǔ)音信息隱藏算法
14.3常用評(píng)價(jià)指標(biāo)
14.4總結(jié)與展望
14.5思考與復(fù)習(xí)題
第15章助聽(tīng)器聲信號(hào)處理
15.1聽(tīng)力損失與語(yǔ)音理解障礙
15.2壓縮與響度補(bǔ)償
15.3回聲抑制算法
15.4降頻算法
15.5總結(jié)與展望
15.6思考與復(fù)習(xí)題
附錄
附錄APyCharm快速使用教程
附錄B常用Python庫(kù)及其說(shuō)明
參考文獻(xiàn)