關于我們
書單推薦
新書推薦
|
現代語言信號處理
本書系統(tǒng)介紹了語音信號處理的基礎、原理、方法、應用、新理論、新成果與新技術,以及該研究領域的背景知識、研究現狀、應用前景和發(fā)展趨勢。
全書分三篇共17章。第一篇語音信號處理基礎,包括第1章緒論,第2章語音信號處理的基礎知識;第二篇語音信號分析,包括第3章時域分析,第4章短時傅里葉分析,第5章倒譜分析與同態(tài)濾波,第6章線性預測分析,第7章語音信號的非線性分析,第8章語音特征參數檢測與估計,第9章矢量量化,第10章隱馬爾可夫模型;第三篇語音信號處理技術與應用,包括第11章語音編碼,第12章語音合成,第13章語音識別,第14章說話人識別和語種辨識,第15章智能信息處理技術在語音信號處理中的應用,第16章語音增強,第17章基于麥克風陣列的語音信號處理。 本書體系完整,結構嚴謹;系統(tǒng)性強,層次分明;內容深入淺出,原理闡述透徹;取材廣泛,繁簡適中;內容豐富而新穎;聯系實際應用。
目 錄
第一篇 語音信號處理基礎 第1章 緒論 1 1.1 語音信號處理的發(fā)展歷史 1 1.2 語音信號處理的主要研究內容及發(fā)展 概況 3 1.3 本書的內容 7 思考與復習題 8 第2章 語音信號處理的基礎知識 9 2.1 概述 9 2.2 語音產生的過程 9 2.3 語音信號的特性 12 2.3.1 語言和語音的基本特性 12 2.3.2 語音信號的時間波形和頻譜特性 13 2.3.3 語音信號的統(tǒng)計特性 15 2.4 語音產生的線性模型 16 2.4.1 激勵模型 17 2.4.2 聲道模型 18 2.4.3 輻射模型 20 2.4.4 語音信號數字模型 21 2.5 語音產生的非線性模型 22 2.5.1 FM-AM模型的基本原理 22 2.5.2 Teager能量算子 22 2.5.3 能量分離算法 23 2.5.4 FM-AM模型的應用 24 2.6 語音感知 24 2.6.1 聽覺系統(tǒng) 24 2.6.2 神經系統(tǒng) 25 2.6.3 語音感知 26 思考與復習題 29 第二篇 語音信號分析 第3章 時域分析 30 3.1 概述 30 3.2 數字化和預處理 31 3.2.1 取樣率和量化字長的選擇 31 3.2.2 預處理 33 3.3 短時能量分析 34 3.4 短時過零分析 36 3.5 短時相關分析 39 3.5.1 短時自相關函數 39 3.5.2 修正的短時自相關函數 40 3.5.3 短時平均幅差函數 42 3.6 語音端點檢測 42 3.6.1 雙門限前端檢測 43 3.6.2 多門限過零率前端檢測 43 3.6.3 基于FM-AM模型的端點檢測 43 3.7 基于高階累積量的語音端點檢測 44 3.7.1 噪聲環(huán)境下的端點檢測 44 3.7.2 高階累積量與高階譜 44 3.7.3 基于高階累積量的端點檢測 46 思考與復習題 48 第4章 短時傅里葉分析 50 4.1 概述 50 4.2 短時傅里葉變換 50 4.2.1 短時傅里葉變換的定義 50 4.2.2 傅里葉變換的解釋 51 4.2.3 濾波器的解釋 54 4.3 短時傅里葉變換的取樣率 55 4.4 語音信號的短時綜合 56 4.4.1 濾波器組求和法 56 4.4.2 FFT求和法 58 4.5 語譜圖 59 思考與復習題 61 第5章 倒譜分析與同態(tài)濾波 62 5.1 概述 62 5.2 同態(tài)信號處理的基本原理 62 5.3 復倒譜和倒譜 63 5.4 語音信號兩個卷積分量復倒譜的性質 64 5.4.1 聲門激勵信號 64 5.4.2 聲道沖激響應序列 65 5.5 避免相位卷繞的算法 66 5.5.1 微分法 67 5.5.2 最小相位信號法 67 5.5.3 遞推法 69 5.6 語音信號復倒譜分析實例 70 5.7 Mel頻率倒譜系數 72 思考與復習題 73 第6章 線性預測分析 74 6.1 概述 74 6.2 線性預測分析的基本原理 74 6.2.1 基本原理 74 6.2.2 語音信號的線性預測分析 75 6.3 線性預測方程組的建立 76 6.4 線性預測分析的解法(1)—自相關和 協方差法 77 6.4.1 自相關法 78 6.4.2 協方差法 79 6.4.3 自相關和協方差法的比較 80 6.5 線性預測分析的解法(2)—格型法 81 6.5.1 格型法基本原理 81 6.5.2 格型法的求解 83 6.6 線性預測分析的應用—LPC譜估計和 LPC復倒譜 85 6.6.1 LPC譜估計 85 6.6.2 LPC復倒譜 87 6.6.3 LPC譜估計與其他譜分析方法的 比較 88 6.7 線譜對(LSP)分析 89 6.7.1 線譜對分析原理 89 6.7.2 線譜對參數的求解 91 6.8 極零模型 91 思考與復習題 93 第7章 語音信號的非線性分析 94 7.1 概述 94 7.2 時頻分析 94 7.2.1 短時傅里葉變換的局限 95 7.2.2 時頻分析 96 7.3 小波分析 97 7.3.1 概述 97 7.3.2 小波變換的定義 97 7.3.3 典型的小波函數 99 7.3.4 離散小波變換 100 7.3.5 小波多分辨分析與Mallat算法 100 7.4 基于小波的語音分析 101 7.4.1 語音分解與重構 101 7.4.2 清/濁音判斷 102 7.4.3 語音去噪 102 7.4.4 聽覺系統(tǒng)模擬 103 7.4.5 小波包變換在語音端點檢測中的 應用 103 7.5 混沌與分形 104 7.6 基于混沌的語音分析 105 7.6.1 語音信號的混沌性 105 7.6.2 語音信號的相空間重構 106 7.6.3 語音信號的Lyapunov指數 108 7.6.4 基于混沌的語音、噪聲判別 109 7.7 基于分形的語音分析 110 7.7.1 概述 110 7.7.2 語音信號的分形特征 111 7.7.3 基于分形的語音分割 112 思考與復習題 113 第8章 語音特征參數估計 114 8.1 基音估計 114 8.1.1 自相關法 115 8.1.2 并行處理法 117 8.1.3 倒譜法 118 8.1.4 簡化逆濾波法 120 8.1.5 高階累積量法 122 8.1.6 小波變換法 123 8.1.7 基音檢測的后處理 124 8.2 共振峰估計 125 8.2.1 帶通濾波器組法 125 8.2.2 DFT法 126 8.2.3 倒譜法 127 8.2.4 LPC法 129 8.2.5 FM-AM模型法 130 思考與復習題 131 第9章 矢量量化 132 9.1 概述 132 9.2 矢量量化的基本原理 133 9.3 失真測度 134 9.3.1 歐氏距離—均方誤差 135 9.3.2 LPC失真測度 135 9.3.3 識別失真測度 137 9.4 最佳矢量量化器和碼本的設計 137 9.4.1 矢量量化器最佳設計的兩個條件 137 9.4.2 LBG算法 138 9.4.3 初始碼書生成 138 9.5 降低復雜度的矢量量化系統(tǒng) 139 9.5.1 無記憶的矢量量化系統(tǒng) 140 9.5.2 有記憶的矢量量化系統(tǒng) 142 9.6 語音參數的矢量量化 144 9.7 模糊矢量量化 145 9.7.1 模糊集概述 146 9.7.2 模糊矢量量化 147 9.8 遺傳矢量量化 148 9.8.1 遺傳算法 148 9.8.2 遺傳矢量量化 150 思考與復習題 151 第10章 隱馬爾可夫模型 152 10.1 概述 152 10.2 隱馬爾可夫模型的引入 153 10.3 隱馬爾可夫模型的定義 155 10.4 隱馬爾可夫模型三個問題的求解 156 10.4.1 概率的計算 157 10.4.2 HMM的識別 159 10.4.3 HMM的訓練 160 10.4.4 EM算法 161 10.5 HMM的選取 162 10.5.1 HMM的類型選擇 162 10.5.2 輸出概率分布的選取 163 10.5.3 狀態(tài)數的選取 163 10.5.4 初值選取 163 10.5.5 訓練準則的選取 165 10.6 HMM應用與實現中的一些問題 166 10.6.1 數據下溢 166 10.6.2 多輸出(觀察矢量序列)情況 166 10.6.3 訓練數據不足 167 10.6.4 考慮狀態(tài)持續(xù)時間的HMM 168 10.7 HMM的結構和類型 170 10.7.1 HMM的結構 170 10.7.2 HMM的類型 172 10.7.3 按輸出形式分類 173 10.8 HMM的相似度比較 174 思考與復習題 175 第三篇 語音信號處理技術與應用 第11章 語音編碼 176 11.1 概述 176 11.2 語音信號的壓縮編碼原理 178 11.2.1 語音壓縮的基本原理 178 11.2.2 語音通信中的語音質量 179 11.2.3 兩種壓縮編碼方式 180 11.3 語音信號的波形編碼 180 11.3.1 PCM及APCM 180 11.3.2 預測編碼及自適應預測編碼 183 11.3.3 ADPCM及ADM 185 11.3.4 子帶編碼(SBC) 187 11.3.5 自適應變換編碼(ATC) 189 11.4 聲碼器 191 11.4.1 概述 191 11.4.2 聲碼器的基本結構 192 11.4.3 通道聲碼器 192 11.4.4 同態(tài)聲碼器 194 11.5 LPC聲碼器 195 11.5.1 LPC參數的變換與量化 196 11.5.2 LPC-10 197 11.5.3 LPC-10e 198 11.5.4 變幀率LPC聲碼器 199 11.6 各種常規(guī)語音編碼方法的比較 200 11.6.1 波形編碼的信號壓縮技術 200 11.6.2 波形編碼與聲碼器的比較 200 11.6.3 各種聲碼器的比較 201 11.7 基于LPC模型的混合編碼 201 11.7.1 混合編碼采用的技術 202 11.7.2 MPLPC 204 11.7.3 RPELPC 207 11.7.4 CELP 209 11.7.5 CELP的改進形式 211 11.7.6 基于分形碼本的CELP 213 11.8 基于正弦模型的混合編碼 214 11.8.1 正弦變換編碼 215 11.8.2 多帶激勵(MBE)編碼 215 11.9 極低速率語音編碼 217 11.9.1 400~1.2kb/s數碼率的聲碼器 217 11.9.2 識別-合成型聲碼器 218 11.10 語音編碼的性能指標 219 11.11 語音編碼的質量評價 221 11.11.1 主觀評價方法 221 11.11.2 客觀評價方法 222 11.11.3 主客觀評價方法的結合 225 11.11.4 基于多重分形的語音質量評價 226 11.12 語音編碼國際標準 227 11.13 語音編碼與圖像編碼的關系 228 小結 229 思考與復習題 229 第12章 語音合成 231 12.1 概述 231 12.2 語音合成原理 232 12.2.1 語音合成的方法 232 12.2.2 語音合成的系統(tǒng)特性 234 12.3 共振峰合成 235 12.3.1 共振峰合成原理 235 12.3.2 共振峰合成實例 237 12.4 LPC合成 237 12.5 PSOLA語音合成 239 12.5.1 概述 239 12.5.2 PSOLA的原理 240 12.5.3 PSOLA的實現 240 12.5.4 PSOLA的改進 242 12.5.5 PSOLA語音合成系統(tǒng)的發(fā)展 243 12.6 文語轉換系統(tǒng) 243 12.6.1 組成與結構 243 12.6.2 文本分析 244 12.6.3 韻律控制 245 12.6.4 語音合成 248 12.6.5 TTS系統(tǒng)的一些問題 248 12.7 基于HMM的參數化語音合成 249 12.8 語音合成的研究現狀和發(fā)展趨勢 253 12.9 語音合成硬件簡介 255 思考與復習題 256 第13章 語音識別 257 13.1 概述 257 13.2 語音識別原理 260 13.3 動態(tài)時間規(guī)整 264 13.4 基于有限狀態(tài)矢量量化的語音識別 266 13.5 孤立詞識別系統(tǒng) 267 13.6 連接詞識別 270 13.6.1 基本原理 270 13.6.2 基于DTW的連接詞識別 271 13.6.3 基于HMM的連接詞識別 273 13.6.4 基于分段K-均值的最佳詞串分割及 模型訓練 273 13.7 連續(xù)語音識別 274 13.7.1 連續(xù)語音識別存在的困難 274 13.7.2 連續(xù)語音識別的訓練及識別方法 275 13.7.3 連續(xù)語音識別的整體模型 276 13.7.4 基于HMM統(tǒng)一框架的大詞匯非特定 人連續(xù)語音識別 277 13.7.5 聲學模型 278 13.7.6 語言學模型 280 13.7.7 最優(yōu)路徑搜索 282 13.8 說話人自適應 284 13.8.1 MAP算法 285 13.8.2 基于變換的自適應方法 285 13.8.3 基于說話人分類的自適應方法 286 13.9 魯棒的語音識別 287 13.10 關鍵詞確認 289 13.11 可視語音識別 291 13.11.1 概述 291 13.11.2 機器自動唇讀 291 13.11.3 雙模態(tài)語音識別 293 13.12 語音理解 296 13.12.1 MAP語義解碼 297 13.12.2 語義結構的表示 297 13.12.3 意圖解碼器 298 小結 299 思考與復習題 299 第14章 說話人識別 300 14.1 概述 300 14.2 特征選取 301 14.2.1 說話人識別所用的特征 301 14.2.2 特征類型的優(yōu)選準則 302 14.2.3 常用的特征參數 303 14.3 說話人識別系統(tǒng) 303 14.3.1 說話人識別系統(tǒng)的結構 303 14.3.2 說話人識別的基本方法概述 304 14.4 說話人識別系統(tǒng)實例 305 14.4.1 DTW型說話人識別系統(tǒng) 305 14.4.2 應用VQ的說話人識別系統(tǒng) 306 14.5 基于HMM的說話人識別 307 14.6 基于GMM的說話人識別 310 14.7 說話人識別中需進一步研究的問題 312 14.8 語種辨識 313 思考與復習題 316 第15章 智能信息處理技術在語音信號 處理中的應用 317 15.1 人工神經網絡 317 15.1.1 概述 317 15.1.2 神經網絡的基本概念 319 15.2 神經網絡的模型結構 320 15.2.1 單層感知機 320 15.2.2 多層感知機 321 15.2.3 自組織映射神經網絡 323 15.2.4 時延神經網絡 324 15.2.5 循環(huán)神經網絡 325 15.3 神經網絡與傳統(tǒng)方法的結合 325 15.3.1 概述 325 15.3.2 神經網絡與DTW 326 15.3.3 神經網絡與VQ 326 15.3.4 神經網絡與HMM 327 15.4 神經網絡語音識別 328 15.4.1 靜態(tài)語音識別 328 15.4.2 連續(xù)語音識別 330 15.5 基于神經網絡的說話人識別 330 15.6 基于神經網絡的語音信號非線性預測 編碼 332 15.6.1 語音信號的非線性預測 332 15.6.2 基于MLP的非線性預測編碼 333 15.6.3 基于RNN的非線性預測編碼 334 15.7 基于神經網絡的語音合成 335 15.8 支持向量機 336 15.8.1 概述 336 15.8.2 支持向量機的基本原理 337 15.9 基于支持向量機的語音分類識別 339 15.10 基于支持向量機的說話人識別 340 15.10.1 基于支持向量機的說話人辨認 340 15.10.2 基于支持向量機的說話人確認 340 15.11 基于混沌神經網絡的語音識別 342 15.11.1 混沌神經網絡 342 15.11.2 基于混沌神經網絡的語音識別 342 15.12 分形在語音識別中的應用 344 15.13 智能優(yōu)化算法在語音信號處理中的 應用 344 15.14 各種智能信息處理技術的融合與 集成 346 15.14.1 模糊系統(tǒng)與神經網絡的融合 347 15.14.2 神經網絡與遺傳算法的融合 347 15.14.3 模糊邏輯、神經網絡及遺傳算法的 融合 348 15.14.4 神經網絡、模糊邏輯及混沌的 融合 349 15.14.5 混沌與遺傳算法的融合 349 思考與復習題 350 第16章 語音增強 351 16.1 概述 351 16.2 語音、人耳感知及噪聲的特性 352 16.3 濾波器法 354 16.3.1 固定濾波器 354 16.3.2 變換技術 354 16.3.3 自適應噪聲對消 354 16.4 非線性處理 357 16.5 基于相關特性的語音增強 358 16.6 減譜法 359 16.6.1 減譜法的基本原理 359 16.6.2 減譜法的改進形式 360 16.7 基于Wiener濾波的語音增強 361 16.8 基于語音產生模型的語音增強 362 16.9 基于小波的語音增強 364 16.9.1 概述 364 16.9.2 基于小波的語音增強 364 16.9.3 基于小波包的語音增強 366 16.10 基于信號子空間分解的語音增強 367 16.11 語音增強的一些新發(fā)展 370 小結 371 思考與復習題 372 第17章 基于麥克風陣列的語音信號 處理 373 17.1 概述 373 17.2 麥克風陣列語音處理技術的難點 374 17.3 聲源定位 375 17.3.1 去混響 375 17.3.2 近場模型 376 17.3.3 聲源定位 377 17.4 語音增強 381 17.4.1 概述 381 17.4.2 方法與技術 382 17.4.3 應用 386 17.4.4 本節(jié)小結 387 17.5 語音盲分離 387 17.5.1 瞬時線性混合模型 388 17.5.2 卷積混合模型 393 17.5.3 非線性混合模型 395 17.5.4 需進一步研究的問題 396 思考與復習題 396 漢英名詞術語對照 398 參考文獻 407
語音信號處理是在多學科基礎上發(fā)展起來的綜合性研究領域與技術,涉及數字信號處理、語音學、語言學、生理學、心理學、計算機科學、模式識別、認知科學和智能信息處理等學科。它是發(fā)展非常迅速的信息科學研究領域中的一個,其研究涉及一系列前沿課題。近年來,該領域取得大量成果,在理論與學術研究上取得長足發(fā)展。同時,其研究成果也在很多領域得到廣泛應用;目前語音技術處于蓬勃發(fā)展時期,有大量產品投放市場,且不斷有新產品被開發(fā)研制,具有廣闊的市場需求和前景。
本書系統(tǒng)介紹了語音信號處理的基礎、原理、方法、應用、新成果與新技術,以及該研究領域的背景知識、研究現狀、應用前景和發(fā)展趨勢。本書內容編排按基礎―分析―處理與應用的順序組織材料。 本書作者于2000年在哈爾濱工業(yè)大學出版社出版《語音信號處理》,后又多次修訂。 這次的《現代語音信號處理》對原書內容、結構等進行了大幅度修訂,以適應目前語音信號處理研究的不斷發(fā)展及高等學校相關專業(yè)對本門課程新的教學要求。除傳統(tǒng)的語音信號處理外,本書用大量篇幅介紹了現代語音信號處理的內容,包括以下3方面: (1)語音信號處理領域的一些新技術與新成果,包括語音產生的非線性模型,非線性預測編碼,基于HMM的參數化語音合成,可視及雙模語音識別,說話人自適應,語音理解,基于子空間分解的語音增強等。 (2)智能信息處理與現代信號處理技術在語音處理中的應用。介紹了一些新興及前沿的理論與技術,包括混沌與分形、支持向量機、神經網絡、模糊理論、遺傳算法(及其他智能優(yōu)化算法)、以及高階累積量、盲源分離、小波變換、信號子空間分解等在語音信號分析與處理中的應用。 語音信號處理研究已經歷了幾十年,特別是近30年來已取得很多重要進展;但該領域仍蘊含著很大的潛力,也面臨許多理論與方法上的困難,并存在一些難以解決的問題。近年興起并得到迅速發(fā)展的智能信息處理與現代信號處理中的一些理論與技術,是解決這些問題的工具之一;它們已在語音信號處理研究中得到廣泛應用,并取得了大量成果,對該領域的發(fā)展起到了重要推動作用。 (3)語音麥克風陣列信號處理,包括基于麥克風陣列的聲源定位,語音盲分離及語音增強等。基于麥克風陣列的語音信號處理是陣列信號處理與語音信號處理的交叉學科,且涉及聲學信號處理的內容。應用于語音信號處理的陣列處理技術與應用于雷達、移動通信及聲吶等領域的陣列處理技術有很大不同。這部分內容反映了作者從事陣列信號處理、相控陣雷達及電子偵察與對抗等領域研究所取得的一些體會與認識。 本書體系完整、結構嚴謹;系統(tǒng)性強;內容深入淺出,原理闡述透徹;取材廣泛,繁簡適中;內容豐富而新穎;聯系實際應用?勺鳛楦叩仍盒P盘柵c信息處理、通信與電子工程、電路與系統(tǒng)、模式識別與人工智能等專業(yè)及學科的高年級本科生及研究生教材,也可供該領域的科研及工程技術人員參考。 感謝工業(yè)和信息產業(yè)科技與教育專著出版資金對本書出版的資助。 著名信息科學專家、北京交通大學袁保宗教授在百忙之中審閱了本書,提出了很多寶貴的指導性意見,并推薦本書出版;在此向袁先生表示深切的敬意與感謝!同時感謝鮑長春教授提出的寶貴建議。 欒學鵬老師參加了部分編寫工作,金玉寶同學提供了幫助,在此一并致謝。 本書力求反映作者多年從事語音信號處理課程教學的經驗與體會。鑒于該研究領域內容豐富,涉及眾多學科及前沿領域,有很強的實用性,又處于迅速發(fā)展之中,受作者水平等多方面因素所限,書中難免存在一些問題與不足,敬請批評指正。 作 者
你還可能感興趣
我要評論
|