由陳鄞主編的《自然語言處理基本理論和方法》對自然語言處理的基本理論和方法進行介紹。主要內容包括字符集的編碼體系、語言計算模型、語言學資源建設、自然語言的詞法分析、句法分析和語義分析等。《自然語言處理基本理論和方法》內容源于作者多年的教學及科研心得,適合作為高等院校計算機相關專業(yè)本科生及研究生課程的教材。
第1章 緒論
1.1什么是自然語言處理
1.2自然語言處理的研究內容
1.3自然語言處理的應用領域
1.4自然語言處理中用到的知識
1.5自然語言處理面臨的困難
1.5.1歧義現(xiàn)象的處理
1.5.2未知語言現(xiàn)象的處理
1.6自然語言處理的基本方法及其發(fā)展
1.7學科現(xiàn)狀
1.8語言、思維和理解
1.9本書結構
本章小結
思考練習
第2章 語料庫與詞匯知識庫
2.1語料庫
2.1.1基本概念
2.1.2語料庫類型
2.1,3典型語料庫介紹
2.1.4語料處理的基本問題
2.2詞匯知識庫
2.2.1 WordNet
2.2.2知網(wǎng)
本章小結
思考練習
第3章 n元語法模型
3.1 n元語法的基本概念
3.2數(shù)據(jù)平滑技術
3.2.1 Laplace法則
3.2.2 GoodTrur1ng估計
3.2.3絕對折扣和線性折扣
3.2.4 W1ttenBell平滑算法
3.2.5扣留估計
3.2.6交叉校驗
3.2.7刪除插值法
3.2.8 Katz回退算法
3.3開發(fā)和測試模型的數(shù)據(jù)集
3.4基于詞類的ngram模型
本章小結
思考練習
第4章 隱馬爾科夫模型
4.1馬爾科夫模型
4.2隱馬爾科夫模型
4.3 HMM的三個基本問題
4.3.1求解觀察值序列的概率
4.3.2確定最優(yōu)狀態(tài)序列
4.3.3 HMM的參數(shù)估計
本章小結
思考練習
第5章 常用機器學習方法簡介
5.1 決策樹
5.2貝葉斯分類器
5.3支持向量機
5.4最大熵模型
5.5感知器
5.6 Boost1ng
本章小結
思考練習
第6章 字符編碼與字頻統(tǒng)計
6.1西文字符編碼
6.2中文字符編碼
6.2.1 國標碼
6.2.2大五碼
6.2.3 Un1code與1SO/1EC 10646
6.2.4國標擴展碼
6.2.5 GB 18030
6.3字符編碼知識的作用
6.4字頻統(tǒng)計
6.4.1字頻統(tǒng)計的應用
6.4.2單字字頻統(tǒng)計
6.4.3雙字字頻統(tǒng)計
本章小結
思考練習
第7章 詞法分析
7.1漢語自動分詞及其基本問題
7.1.1分詞規(guī)范與詞表
7.1.2切分歧義問題
7.1.3未登錄詞識別問題
7.2基本分詞方法
7.2.1最大匹配法
7.2.2最少分詞法
7.2.3最大概率法
7.2.4與詞性標注相結合的分詞方法
7.2.5基于互現(xiàn)信息的分詞方法
7.2.6基于字分類的分詞方法
7.2.7基于實例的漢語分詞方法
7.3中文姓名識別
7.3.1基于規(guī)則的方法
7.3.2基于統(tǒng)計的方法
7.4漢語自動分詞系統(tǒng)的評價
7.5英語形態(tài)還原
7.6詞性標注
7.6.1詞性標記集
7.6.2基于規(guī)則的詞性標注方法
7.6,3基于統(tǒng)計的詞性標注方法
本章小結
思考練習
第8章 句法分析
8.1文法的表示
8.2自頂向下的句法分析
8.3自底向上的句法分析
8.3.1移近一歸約算法
8.3.2歐雷分析法
8.3.3線圖分析法
8.3.4 cYK分析法
8.4概率上下文無關文法
8.5淺層句法分析
8.5.1問題的提出
8.5.2基于規(guī)則的方法
8.5.3基于統(tǒng)計的方法
8.6句法分析系統(tǒng)評測
本章小結
思考練習
第9章 語義分析
9.1詞義消歧
9.1.1基于規(guī)則的詞義消歧
9.1.2基于統(tǒng)計的詞義消歧
9.1.3基于實例的詞義消歧
9.1.4基于詞典的詞義消歧
9.2語義角色標注
9.2.1 格語法
9.2.2基于統(tǒng)計機器學習技術的語義角色標注
9.3深層語義推理
9.3.1命題邏輯和渭詞邏輯
9.3.2語義網(wǎng)絡
9.3.3概念依存理論
本章小結
思考練習
參考文獻