關(guān)于我們
書單推薦
新書推薦
|
解析深度學(xué)習(xí):語(yǔ)音識(shí)別實(shí)踐
《解析深度學(xué)習(xí):語(yǔ)音識(shí)別實(shí)踐》是首部介紹語(yǔ)音識(shí)別中深度學(xué)習(xí)技術(shù)細(xì)節(jié)的專著。全書首先概要介紹了傳統(tǒng)語(yǔ)音識(shí)別理論和經(jīng)典的深度神經(jīng)網(wǎng)絡(luò)核心算法。接著全面而深入地介紹了深度學(xué)習(xí)在語(yǔ)音識(shí)別中的應(yīng)用,包括“深度神經(jīng)網(wǎng)絡(luò)-隱馬爾可夫混合模型”的訓(xùn)練和優(yōu)化,特征表示學(xué)習(xí)、模型融合、自適應(yīng),以及以循環(huán)神經(jīng)網(wǎng)絡(luò)為代表的若干先進(jìn)深度學(xué)習(xí)技術(shù)。
《解析深度學(xué)習(xí):語(yǔ)音識(shí)別實(shí)踐》適合有一定機(jī)器學(xué)習(xí)或語(yǔ)音識(shí)別基礎(chǔ)的學(xué)生、研究者或從業(yè)者閱讀,所有的算法及技術(shù)細(xì)節(jié)都提供了詳盡的參考文獻(xiàn),給出了深度學(xué)習(xí)在語(yǔ)音識(shí)別中應(yīng)用的全景。
AlphaGo與李世石的圍棋大戰(zhàn)激發(fā)了人們對(duì)人工智能是非的諸多爭(zhēng)論。人工智能背后的工作原理深度學(xué)習(xí)跳入大眾的視野。AlphaGo的大獲全勝一定程度展示了深度學(xué)習(xí)在應(yīng)用領(lǐng)域的成功,而語(yǔ)音識(shí)別正是深度學(xué)習(xí)取得顯著成功的應(yīng)用領(lǐng)域之一。
本書是首次以深度學(xué)習(xí)為主線介紹語(yǔ)音識(shí)別應(yīng)用的書籍,對(duì)讀者了解語(yǔ)音識(shí)別技術(shù)及其發(fā)展歷程有重要的參考價(jià)值。 本書作者俞棟、鄧力均是該領(lǐng)域的著名專家,他們是深度學(xué)習(xí)在應(yīng)用領(lǐng)域取得突破性進(jìn)展的推動(dòng)者與實(shí)踐者,他們?cè)跁蟹窒淼难芯砍晒欢ǔ潭壬洗砹吮绢I(lǐng)域全新的研究進(jìn)展;譯者俞凱、錢彥 旻也是本領(lǐng)域的資深專家,并有眾多實(shí)踐成果。 對(duì)于從事此領(lǐng)域研究的讀者來(lái)說(shuō),本書無(wú)疑有重要的參考價(jià)值。
俞棟
1998 年加入微軟公司,現(xiàn)任微軟研究院首席研究員、浙江大學(xué)兼職教授和中科大客座教授。他是語(yǔ)音識(shí)別和深度學(xué)習(xí)方向的資深專家,出版了兩本專著,發(fā)表了150 多篇論文,是近60 項(xiàng)專利的發(fā)明人及有廣泛影響力的深度學(xué)習(xí)開源軟件CNTK 的發(fā)起人和主要作者之一。他在基于深度學(xué)習(xí)的語(yǔ)音識(shí)別技術(shù)上的工作帶來(lái)了語(yǔ)音識(shí)別研究方向的轉(zhuǎn)變,極大地推動(dòng)了語(yǔ)音識(shí)別領(lǐng)域的發(fā)展,并獲得2013 年IEEE 信號(hào)處理協(xié)會(huì)佳論文獎(jiǎng)。俞棟博士現(xiàn)擔(dān)任IEEE 語(yǔ)音語(yǔ)言處理專業(yè)委員會(huì)委員,曾擔(dān)任IEEE/ACM音頻、語(yǔ)音及語(yǔ)言處理匯刊、IEEE 信號(hào)處理雜志等期刊的編委。 鄧力 世界著名人工智能、機(jī)器學(xué)習(xí)和語(yǔ)音語(yǔ)言信號(hào)處理專家,現(xiàn)任微軟首席人工智能科學(xué)家和深度學(xué)習(xí)技術(shù)中心研究經(jīng)理。他在美國(guó)威斯康星大學(xué)先后獲碩士和博士學(xué)位,然后在加拿大滑鐵盧大學(xué)任教獲得終身正教授。其間,他還任麻省理工學(xué)院研究職位。1999 年加入微軟研究院歷任數(shù)職,并在2014 年初創(chuàng)辦深度學(xué)習(xí)技術(shù)中心,主持微軟公司和研究院的人工智能和深度學(xué)習(xí)領(lǐng)域的技術(shù)創(chuàng)新。 鄧立博士的研究方向包括自動(dòng)語(yǔ)音與說(shuō)話者識(shí)別、口語(yǔ)識(shí)別與理解、語(yǔ)音–語(yǔ)音翻譯、機(jī)器翻譯、語(yǔ)言模式、統(tǒng)計(jì)方法與機(jī)器學(xué)習(xí)、聽覺和其他生物信息處理、深層結(jié)構(gòu)學(xué)習(xí)、類腦機(jī)器智能、圖像語(yǔ)言多模態(tài)深度學(xué)習(xí),商業(yè)大數(shù)據(jù)深度分析等。他在上述領(lǐng)域做出了重大貢獻(xiàn),是ASA(美國(guó)聲學(xué)學(xué)會(huì))會(huì)士、IEEE(美國(guó)電氣和電子工程師協(xié)會(huì))會(huì)士和理事、ISCA(國(guó)際語(yǔ)音通信協(xié)會(huì))會(huì)士,并憑借在深度學(xué)習(xí)與自動(dòng)語(yǔ)音識(shí)別方向做出的杰出貢獻(xiàn)榮獲2015年度IEEE 信號(hào)處理技術(shù)成就獎(jiǎng)。同時(shí),他也曾在高端雜志和會(huì)議上發(fā)表過(guò)與上述領(lǐng)域相關(guān)的300 余篇學(xué)術(shù)論文,出版過(guò)5 部著作,發(fā)明及合作發(fā)明了超過(guò)70 多項(xiàng)專利。鄧立博士還擔(dān)任過(guò)IEEE 信號(hào)處理雜志和《音頻、語(yǔ)音與語(yǔ)言處理學(xué)報(bào)》(IEEE/ACMTransactions on Audio, Speech & anguage Processing)的主編。 俞凱 IEEE 高級(jí)會(huì)員,上海交通大學(xué)計(jì)算機(jī)科學(xué)與工程系特別研究員。清華大學(xué)本科、碩士,英國(guó)劍橋大學(xué)工程系博士。長(zhǎng)期從事智能語(yǔ)音及語(yǔ)言處理、人機(jī)交互、模式識(shí)別及機(jī)器學(xué)習(xí)的研究和產(chǎn)業(yè)化工作。他是中組部“千人計(jì)劃”(青年項(xiàng)目)獲得者,國(guó)家自然科學(xué)基金委優(yōu)秀青年科學(xué)基金獲得者,上海市“東方學(xué)者”特聘教授;作為共同創(chuàng)始人和首席科學(xué)家創(chuàng)立“蘇州思必馳信息科技有限公司”,F(xiàn)任中國(guó)聲學(xué)學(xué)會(huì)語(yǔ)音語(yǔ)言、聽覺及音樂分會(huì)執(zhí)委會(huì)委員,中國(guó)計(jì)算機(jī)學(xué)會(huì)人機(jī)交互專委會(huì)委員,中國(guó)語(yǔ)音產(chǎn)業(yè)聯(lián)盟技術(shù)工作組副組長(zhǎng)。他的研究興趣涉及語(yǔ)音識(shí)別、語(yǔ)音合成、口語(yǔ)理解、對(duì)話系統(tǒng)、認(rèn)知型人機(jī)交互等智能語(yǔ)音語(yǔ)言處理技術(shù)的多個(gè)核心技術(shù)領(lǐng)域,在本領(lǐng)域的一流國(guó)際期刊和會(huì)議上發(fā)表論文80 余篇,申請(qǐng)專利10 余項(xiàng),取得了一系列研究、工程和產(chǎn)業(yè)化成果。在InterSpeech 及IEEE Spoken Language Processing 等國(guó)際會(huì)議上獲得3 篇國(guó)際會(huì)議優(yōu)秀論文獎(jiǎng),獲得國(guó)際語(yǔ)音通信聯(lián)盟(ISCA)2013 年頒發(fā)的2008—2012 Computer Speech and Language 優(yōu)論文獎(jiǎng)。受邀擔(dān)任InterSpeech 2009 語(yǔ)音識(shí)別領(lǐng)域主席、EUSIPCO 2011/EUSIPCO 2014 語(yǔ)音處理領(lǐng)域主席、InterSpeech 2014 口語(yǔ)對(duì)話系統(tǒng)領(lǐng)域主席等。他負(fù)責(zé)搭建或參與搭建的大規(guī)模連續(xù)語(yǔ)音識(shí)別系統(tǒng),曾獲得美國(guó)國(guó)家標(biāo)準(zhǔn)局(NIST)和美國(guó)國(guó)防部?jī)?nèi)部評(píng)測(cè)冠軍;作為核心技術(shù)人員,負(fù)責(zé)設(shè)計(jì)并實(shí)現(xiàn)的認(rèn)知型統(tǒng)計(jì)對(duì)話系統(tǒng)原型,在CMU 組織的2010 年對(duì)話系統(tǒng)國(guó)際挑戰(zhàn)賽上獲得了可控測(cè)試的冠軍。作為項(xiàng)目負(fù)責(zé)人或Co-PI,他主持了歐盟第7 框架PARLANCE、國(guó)家自然科學(xué)基金委、上海市教委、經(jīng)信委,以及美國(guó)通用公司、蘇州思必馳信息科技有限公司的一系列科研及產(chǎn)業(yè)化項(xiàng)目。2014 年,因在智能語(yǔ)音技術(shù)產(chǎn)業(yè)化方面的貢獻(xiàn),獲得中國(guó)人工智能學(xué)會(huì)頒發(fā)的“吳文俊人工智能科學(xué)技術(shù)獎(jiǎng)”。 錢彥旻 上海交通大學(xué)計(jì)算機(jī)科學(xué)與工程系助理研究員,博士。分別在2007 年6 月和2013 年1 月于華中科技大學(xué)和清華大學(xué)獲得工學(xué)學(xué)士和工學(xué)博士學(xué)位。2013 年4 月起,任上海交通大學(xué)計(jì)算機(jī)科與工程系理研究員。同時(shí)從2015 年1 月至2015 年12 月,在英國(guó)劍橋大學(xué)工程系機(jī)器智能實(shí)驗(yàn)室語(yǔ)音組進(jìn)行訪問,作為項(xiàng)目研究員與語(yǔ)音識(shí)別領(lǐng)域的著名科學(xué)家Phil Woodland 教授和Mark Gales 教授開展合作研究,F(xiàn)為IEEE、ISCA 會(huì)員,同時(shí)也是國(guó)際開源項(xiàng)目Kaldi 語(yǔ)音識(shí)別工具包開發(fā)的項(xiàng)目組創(chuàng)始成員之一。此外,擔(dān)任IEEE Transactions on Audio, Speech, and Language Processing、SpeechCommunication、ICASSP、Interspeech、ASRU 等國(guó)際期刊和會(huì)議的審稿人。目前在國(guó)內(nèi)外學(xué)術(shù)刊物和會(huì)議上發(fā)表學(xué)術(shù)論文50 余篇,Google Scholar 總引用數(shù)近1000 次。其中包括在語(yǔ)音識(shí)別領(lǐng)域優(yōu)秀國(guó)際會(huì)議ICASSP、InterSpeech 和ASRU 上發(fā)表論文30 余篇,申請(qǐng)國(guó)家專利共3 項(xiàng),已授權(quán)1 項(xiàng)。2008 年獲科技奧運(yùn)先進(jìn)集體獎(jiǎng),2014 年獲中國(guó)人工智能學(xué)會(huì)頒發(fā)的“吳文俊人工智能科學(xué)技術(shù)獎(jiǎng)進(jìn)步獎(jiǎng)”。曾作為負(fù)責(zé)人和主要參與者參加了包括英國(guó)EPSRC、國(guó)家自然科學(xué)基金、國(guó)家863 等多個(gè)項(xiàng)目。目前的研究領(lǐng)域包括:語(yǔ)音識(shí)別、說(shuō)話人和語(yǔ)種識(shí)別、自然語(yǔ)言理解、深度學(xué)習(xí)建模、多媒體信號(hào)處理等。
作者及譯者簡(jiǎn)介iv
譯者序vii 序ix 前言xi 術(shù)語(yǔ)縮寫xxiii 符號(hào)xxvii 1 簡(jiǎn)介1 1.1 自動(dòng)語(yǔ)音識(shí)別:更好的溝通之橋 1 1.1.1 人類之間的交流 2 1.1.2 人機(jī)交流 2 1.2 語(yǔ)音識(shí)別系統(tǒng)的基本結(jié)構(gòu) 4 1.3 全書結(jié)構(gòu) 6 1.3.1 第一部分:傳統(tǒng)聲學(xué)模型6 1.3.2 第二部分:深度神經(jīng)網(wǎng)絡(luò)6 1.3.3 第三部分:語(yǔ)音識(shí)別中的DNN-HMM 混合系統(tǒng)7 1.3.4 第四部分:深度神經(jīng)網(wǎng)絡(luò)中的特征表示學(xué)習(xí) 7 1.3.5 第五部分:高級(jí)的深度模型 7 第一部分傳統(tǒng)聲學(xué)模型9 2 混合高斯模型10 2.1 隨機(jī)變量10 2.2 高斯分布和混合高斯隨機(jī)變量11 2.3 參數(shù)估計(jì)13 2.4 采用混合高斯分布對(duì)語(yǔ)音特征建模 15 3 隱馬爾可夫模型及其變體17 3.1 介紹17 3.2 馬爾可夫鏈19 3.3 序列與模型 20 3.3.1 隱馬爾可夫模型的性質(zhì)21 3.3.2 隱馬爾可夫模型的仿真22 3.3.3 隱馬爾可夫模型似然度的計(jì)算22 3.3.4 計(jì)算似然度的高效算法24 3.3.5 前向與后向遞歸式的證明25 3.4 期望zui大化算法及其在學(xué)習(xí)HMM 參數(shù)中的應(yīng)用 26 3.4.1 期望zui大化算法介紹 26 3.4.2 使用EM 算法來(lái)學(xué)習(xí)HMM 參數(shù)——Baum-Welch 算法 28 3.5 用于解碼HMM 狀態(tài)序列的維特比算法32 3.5.1 動(dòng)態(tài)規(guī)劃和維特比算法32 3.5.2 用于解碼HMM 狀態(tài)的動(dòng)態(tài)規(guī)劃算法33 3.6 隱馬爾可夫模型和生成語(yǔ)音識(shí)別模型的變體35 3.6.1 用于語(yǔ)音識(shí)別的GMM-HMM 模型 36 3.6.2 基于軌跡和隱藏動(dòng)態(tài)模型的語(yǔ)音建模和識(shí)別37 3.6.3 使用生成模型HMM 及其變體解決語(yǔ)音識(shí)別問題 38 第二部分深度神經(jīng)網(wǎng)絡(luò)41 4 深度神經(jīng)網(wǎng)絡(luò)42 4.1 深度神經(jīng)網(wǎng)絡(luò)框架42 4.2 使用誤差反向傳播來(lái)進(jìn)行參數(shù)訓(xùn)練 45 4.2.1 訓(xùn)練準(zhǔn)則 45 4.2.2 訓(xùn)練算法46 4.3 實(shí)際應(yīng)用50 4.3.1 數(shù)據(jù)預(yù)處理51 4.3.2 模型初始化52 4.3.3 權(quán)重衰減52 4.3.4 丟棄法 53 4.3.5 批量塊大小的選擇55 4.3.6 取樣隨機(jī)化56 4.3.7 慣性系數(shù) 57 4.3.8 學(xué)習(xí)率和停止準(zhǔn)則58 4.3.9 網(wǎng)絡(luò)結(jié)構(gòu)59 4.3.10 可復(fù)現(xiàn)性與可重啟性 59 5 高級(jí)模型初始化技術(shù)61 5.1 受限玻爾茲曼機(jī)61 5.1.1 受限玻爾茲曼機(jī)的屬性63 5.1.2 受限玻爾茲曼機(jī)參數(shù)學(xué)習(xí)66 5.2 深度置信網(wǎng)絡(luò)預(yù)訓(xùn)練 69 5.3 降噪自動(dòng)編碼器預(yù)訓(xùn)練71 5.4 鑒別性預(yù)訓(xùn)練74 5.5 混合預(yù)訓(xùn)練75 5.6 采用丟棄法的預(yù)訓(xùn)練 75 第三部分語(yǔ)音識(shí)別中的深度神經(jīng)網(wǎng)絡(luò)–隱馬爾可夫混合模型77 6 深度神經(jīng)網(wǎng)絡(luò)–隱馬爾可夫模型混合系統(tǒng)78 6.1 DNN-HMM 混合系統(tǒng) 78 6.1.1 結(jié)構(gòu)78 6.1.2 用CD-DNN-HMM 解碼80 6.1.3 CD-DNN-HMM 訓(xùn)練過(guò)程81 6.1.4 上下文窗口的影響83 6.2 CD-DNN-HMM 的關(guān)鍵模塊及分析 85 6.2.1 進(jìn)行比較和分析的數(shù)據(jù)集和實(shí)驗(yàn)85 6.2.2 對(duì)單音素或者三音素的狀態(tài)進(jìn)行建模 87 6.2.3 越深越好88 6.2.4 利用相鄰的語(yǔ)音幀89 6.2.5 預(yù)訓(xùn)練 90 6.2.6 訓(xùn)練數(shù)據(jù)的標(biāo)注質(zhì)量的影響 90 6.2.7 調(diào)整轉(zhuǎn)移概率 91 6.3 基于KL 距離的隱馬爾可夫模型91 7 訓(xùn)練和解碼的加速93 7.1 訓(xùn)練加速93 7.1.1 使用多GPU 流水線反向傳播94 7.1.2 異步隨機(jī)梯度下降97 7.1.3 增廣拉格朗日算法及乘子方向交替算法100 7.1.4 減小模型規(guī)模 101 7.1.5 其他方法102 7.2 加速解碼103 7.2.1 并行計(jì)算103 7.2.2 稀疏網(wǎng)絡(luò)105 7.2.3 低秩近似107 7.2.4 用大尺寸DNN 訓(xùn)練小尺寸DNN108 7.2.5 多幀DNN 109 8 深度神經(jīng)網(wǎng)絡(luò)序列鑒別性訓(xùn)練111 8.1 序列鑒別性訓(xùn)練準(zhǔn)則 111 8.1.1 zui大相互信息 112 8.1.2 增強(qiáng)型MMI 113 8.1.3 zui小音素錯(cuò)誤/狀態(tài)級(jí)zui小貝葉斯風(fēng)險(xiǎn)114 8.1.4 統(tǒng)一的公式115 8.2 具體實(shí)現(xiàn)中的考量116 8.2.1 詞圖產(chǎn)生116 8.2.2 詞圖補(bǔ)償117 8.2.3 幀平滑 119 8.2.4 學(xué)習(xí)率調(diào)整119 8.2.5 訓(xùn)練準(zhǔn)則選擇 120 8.2.6 其他考量120 8.3 噪聲對(duì)比估計(jì) 121 8.3.1 將概率密度估計(jì)問題轉(zhuǎn)換為二分類設(shè)計(jì)問題121 8.3.2 拓展到未歸一化的模型123 8.3.3 在深度學(xué)習(xí)網(wǎng)絡(luò)訓(xùn)練中應(yīng)用噪聲對(duì)比估計(jì)算法 124 第四部分深度神經(jīng)網(wǎng)絡(luò)中的特征表示學(xué)習(xí)127 9 深度神經(jīng)網(wǎng)絡(luò)中的特征表示學(xué)習(xí)128 9.1 特征和分類器的聯(lián)合學(xué)習(xí)128 9.2 特征層級(jí)129 9.3 使用隨意輸入特征的靈活性 133 9.4 特征的魯棒性 134 9.4.1 對(duì)說(shuō)話人變化的魯棒性134 9.4.2 對(duì)環(huán)境變化的魯棒性 135 9.5 對(duì)環(huán)境的魯棒性137 9.5.1 對(duì)噪聲的魯棒性138 9.5.2 對(duì)語(yǔ)速變化的魯棒性 140 9.6 缺乏嚴(yán)重信號(hào)失真情況下的推廣能力141 10 深度神經(jīng)網(wǎng)絡(luò)和混合高斯模型的融合144 10.1 在GMM-HMM 系統(tǒng)中使用由DNN 衍生的特征144 10.1.1 使用Tandem 和瓶頸特征的GMM-HMM 模型144 10.1.2 DNN-HMM 混合系統(tǒng)與采用深度特征的GMM-HMM 系統(tǒng)的比較147 10.2 識(shí)別結(jié)果融合技術(shù)149 10.2.1 識(shí)別錯(cuò)誤票選降低技術(shù)(ROVER) 149 10.2.2 分段條件隨機(jī)場(chǎng)(SCARF) 151 10.2.3 zui小貝葉斯風(fēng)險(xiǎn)詞圖融合153 10.3 幀級(jí)別的聲學(xué)分?jǐn)?shù)融合153 10.4 多流語(yǔ)音識(shí)別 154 11 深度神經(jīng)網(wǎng)絡(luò)的自適應(yīng)技術(shù)157 11.1 深度神經(jīng)網(wǎng)絡(luò)中的自適應(yīng)問題157 11.2 線性變換159 11.2.1 線性輸入網(wǎng)絡(luò).159 11.2.2 線性輸出網(wǎng)絡(luò) 159 11.3 線性隱層網(wǎng)絡(luò) 161 11.4 保守訓(xùn)練162 11.4.1 L2 正則項(xiàng)163 11.4.2 KL 距離正則項(xiàng)163 11.4.3 減少每個(gè)說(shuō)話人的模型開銷 165 11.5 子空間方法167 11.5.1 通過(guò)主成分分析構(gòu)建子空間 167 11.5.2 噪聲感知、說(shuō)話人感知及設(shè)備感知訓(xùn)練168 11.5.3 張量172 11.6 DNN 說(shuō)話人自適應(yīng)的效果172 11.6.1 基于KL 距離的正則化方法 173 11.6.2 說(shuō)話人感知訓(xùn)練174 第五部分先進(jìn)的深度學(xué)習(xí)模型177 12 深度神經(jīng)網(wǎng)絡(luò)中的表征共享和遷移178 12.1 多任務(wù)和遷移學(xué)習(xí)178 12.1.1 多任務(wù)學(xué)習(xí) 178 12.1.2 遷移學(xué)習(xí)180 12.2 多語(yǔ)言和跨語(yǔ)言語(yǔ)音識(shí)別180 12.2.1 基于Tandem 或瓶頸特征的跨語(yǔ)言語(yǔ)音識(shí)別181 12.2.2 共享隱層的多語(yǔ)言深度神經(jīng)網(wǎng)絡(luò)182 12.2.3 跨語(yǔ)言模型遷移185 12.3 語(yǔ)音識(shí)別中深度神經(jīng)網(wǎng)絡(luò)的多目標(biāo)學(xué)習(xí)188 12.3.1 使用多任務(wù)學(xué)習(xí)的魯棒語(yǔ)音識(shí)別188 12.3.2 使用多任務(wù)學(xué)習(xí)改善音素識(shí)別189 12.3.3 同時(shí)識(shí)別音素和字素(graphemes) 190 12.4 使用視聽信息的魯棒語(yǔ)音識(shí)別 190 13 循環(huán)神經(jīng)網(wǎng)絡(luò)及相關(guān)模型192 13.1 介紹192 13.2 基本循環(huán)神經(jīng)網(wǎng)絡(luò)中的狀態(tài)-空間公式194 13.3 沿時(shí)反向傳播學(xué)習(xí)算法195 13.3.1 zui小化目標(biāo)函數(shù) 196 13.3.2 誤差項(xiàng)的遞歸計(jì)算196 13.3.3 循環(huán)神經(jīng)網(wǎng)絡(luò)權(quán)重的更新197 13.4 一種用于學(xué)習(xí)循環(huán)神經(jīng)網(wǎng)絡(luò)的原始對(duì)偶技術(shù)199 13.4.1 循環(huán)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的難點(diǎn)199 13.4.2 回聲狀態(tài)(Echo-State)性質(zhì)及其充分條件 199 13.4.3 將循環(huán)神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)轉(zhuǎn)化為帶約束的優(yōu)化問題 200 13.4.4 一種用于學(xué)習(xí)RNN 的原始對(duì)偶方法201 13.5 結(jié)合長(zhǎng)短時(shí)記憶單元(LSTM)的循環(huán)神經(jīng)網(wǎng)絡(luò)203 13.5.1 動(dòng)機(jī)與應(yīng)用203 13.5.2 長(zhǎng)短時(shí)記憶單元的神經(jīng)元架構(gòu)204 13.5.3 LSTM-RNN 的訓(xùn)練205 13.6 循環(huán)神經(jīng)網(wǎng)絡(luò)的對(duì)比分析205 13.6.1 信息流方向的對(duì)比:自上而下還是自下而上 206 13.6.2 信息表征的對(duì)比:集中式還是分布式208 13.6.3 解釋能力的對(duì)比:隱含層推斷還是端到端學(xué)習(xí)209 13.6.4 參數(shù)化方式的對(duì)比:吝嗇參數(shù)集合還是大規(guī)模參數(shù)矩陣 209 13.6.5 模型學(xué)習(xí)方法的對(duì)比:變分推理還是梯度下降210 13.6.6 識(shí)別正確率的比較211 13.7 討論212 14 計(jì)算型網(wǎng)絡(luò)214 14.1 計(jì)算型網(wǎng)絡(luò)214 14.2 前向計(jì)算215 14.3 模型訓(xùn)練 218 14.4 典型的計(jì)算節(jié)點(diǎn)222 14.4.1 無(wú)操作數(shù)的計(jì)算節(jié)點(diǎn) 223 14.4.2 含一個(gè)操作數(shù)的計(jì)算節(jié)點(diǎn)223 14.4.3 含兩個(gè)操作數(shù)的計(jì)算節(jié)點(diǎn)228 14.4.4 用來(lái)計(jì)算統(tǒng)計(jì)量的計(jì)算節(jié)點(diǎn)類型235 14.5 卷積神經(jīng)網(wǎng)絡(luò) 236 14.6 循環(huán)連接 239 14.6.1 只在循環(huán)中一個(gè)接一個(gè)地處理樣本240 14.6.2 同時(shí)處理多個(gè)句子242 14.6.3 創(chuàng)建任意的循環(huán)神經(jīng)網(wǎng)絡(luò)243 15 總結(jié)及未來(lái)研究方向245 15.1 路線圖 245 15.1.1 語(yǔ)音識(shí)別中的深度神經(jīng)網(wǎng)絡(luò)啟蒙245 15.1.2 深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練和解碼加速248 15.1.3 序列鑒別性訓(xùn)練248 15.1.4 特征處理249 15.1.5 自適應(yīng) 250 15.1.6 多任務(wù)和遷移學(xué)習(xí)251 15.1.7 卷積神經(jīng)網(wǎng)絡(luò) 251 15.1.8 循環(huán)神經(jīng)網(wǎng)絡(luò)和長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)251 15.1.9 其他深度模型 252 15.2 技術(shù)前沿和未來(lái)方向 252 15.2.1 技術(shù)前沿簡(jiǎn)析252 15.2.2 未來(lái)方向253 參考文獻(xiàn)255???????
你還可能感興趣
我要評(píng)論
|