知識圖譜是較為典型的多學(xué)科交叉領(lǐng)域,涉及知識工程、自然語言處理、機(jī)器學(xué)習(xí)、圖數(shù)據(jù)庫等多個領(lǐng)域。本書系統(tǒng)地介紹知識圖譜涉及的關(guān)鍵技術(shù),如知識建模、關(guān)系抽取、圖存儲、自動推理、圖譜表示學(xué)習(xí)、語義搜索、知識問答、圖挖掘分析等。此外,本書還嘗試將學(xué)術(shù)前沿和實(shí)戰(zhàn)結(jié)合,讓讀者在掌握實(shí)際應(yīng)用能力的同時(shí)對前沿技術(shù)發(fā)展有所了解。本書既適合計(jì)算機(jī)和人工智能相關(guān)的研究人員閱讀,又適合在企業(yè)一線從事技術(shù)和應(yīng)用開發(fā)的人員學(xué)習(xí),還可作為高等院校計(jì)算機(jī)或人工智能專業(yè)師生的參考教材。
王昊奮,上海樂言信息科技有限公司CTO,CCF理事、計(jì)算機(jī)術(shù)語審定工作委員會主任、中文知識圖譜zhishi.me創(chuàng)始人、OpenKG發(fā)起人之一、中文信息學(xué)會語言與知識計(jì)算委員會副秘書長,共發(fā)表80余篇高水平論文,在知識圖譜、問答系統(tǒng)和聊天機(jī)器人等諸多領(lǐng)域有豐富的研發(fā)經(jīng)驗(yàn)。其帶隊(duì)構(gòu)建的語義搜索系統(tǒng)在Billion Triple Challenge中榮獲全球第2名;在著名的本體匹配競賽OAEI的實(shí)體匹配任務(wù)中斬獲得全球第1名。曾主持并參與多項(xiàng)國家自然科學(xué)基金、863重大專項(xiàng)和國家科技支撐項(xiàng)目,以學(xué)術(shù)負(fù)責(zé)人身份參與Paypal、Google、Intel、IBM、百度等企業(yè)的合作項(xiàng)目。
第1章 知識圖譜概述 1
1.1 什么是知識圖譜 1
1.2 知識圖譜的發(fā)展歷史 2
1.3 知識圖譜的價(jià)值 5
1.4 國內(nèi)外典型的知識圖譜項(xiàng)目 9
1.4.1 早期的知識庫項(xiàng)目 9
1.4.2 互聯(lián)網(wǎng)時(shí)代的知識圖譜 9
1.4.3 中文開放知識圖譜 12
1.4.4 垂直領(lǐng)域知識圖譜 13
1.5 知識圖譜的技術(shù)流程 15
1.6 知識圖譜的相關(guān)技術(shù) 19
1.6.1 知識圖譜與數(shù)據(jù)庫系統(tǒng) 19
1.6.2 知識圖譜與智能問答 23
1.6.3 知識圖譜與機(jī)器推理 25
1.6.4 知識圖譜與推薦系統(tǒng) 28
1.6.5 區(qū)塊鏈與去中心化的知識圖譜 29
1.7 本章小結(jié) 30
參考文獻(xiàn) 31
第2章 知識圖譜表示與建模 40
2.1 什么是知識表示 40
2.2 人工智能早期的知識表示方法 43
2.2.1 一階謂詞邏輯 43
2.2.2 霍恩子句和霍恩邏輯 43
2.2.3 語義網(wǎng)絡(luò) 44
2.2.4 框架 45
2.2.5 描述邏輯 47
2.3 互聯(lián)網(wǎng)時(shí)代的語義網(wǎng)知識表示框架 48
2.3.1 RDF和RDFS 48
2.3.2 OWL和OWL2 Fragments 53
2.3.3 知識圖譜查詢語言的表示 59
2.3.4 語義Markup表示語言 62
2.4 常見開放域知識圖譜的知識表示方法 64
2.4.1 Freebase 64
2.4.2 Wikidata 65
2.4.3 ConceptNet5 66
2.5 知識圖譜的向量表示方法 68
2.5.1 知識圖譜表示的挑戰(zhàn) 68
2.5.2 詞的向量表示方法 68
2.5.3 知識圖譜嵌入的概念 71
2.5.4 知識圖譜嵌入的優(yōu)點(diǎn) 72
2.5.5 知識圖譜嵌入的主要方法 72
2.5.6 知識圖譜嵌入的應(yīng)用 75
2.6 開源工具實(shí)踐:基于Protégé的本體知識建模 77
2.6.1 簡介 77
2.6.2 環(huán)境準(zhǔn)備 78
2.6.3 Protégé實(shí)踐主要功能演示 78
2.7 本章小結(jié) 80
參考文獻(xiàn) 80
第3章 知識存儲 82
3.1 知識圖譜數(shù)據(jù)庫基本知識 82
3.1.1 知識圖譜數(shù)據(jù)模型 82
3.1.2 知識圖譜查詢語言 85
3.2 常見知識圖譜存儲方法 91
3.2.1 基于關(guān)系數(shù)據(jù)庫的存儲方案 91
3.2.2 面向RDF的三元組數(shù)據(jù)庫 101
3.2.3 原生圖數(shù)據(jù)庫 115
3.2.4 知識圖譜數(shù)據(jù)庫比較 120
3.3 知識存儲關(guān)鍵技術(shù) 121
3.3.1 知識圖譜數(shù)據(jù)庫的存儲:以Neo4j為例 121
3.3.2 知識圖譜數(shù)據(jù)庫的索引 124
3.4 開源工具實(shí)踐 126
3.4.1 三元組數(shù)據(jù)庫Apache Jena 126
3.4.2 Tutorial:面向RDF的三元組數(shù)據(jù)庫gStore 128
參考文獻(xiàn) 131
第4章 知識抽取與知識挖掘 133
4.1 知識抽取任務(wù)及相關(guān)競賽 133
4.1.1 知識抽取任務(wù)定義 133
4.1.2 知識抽取相關(guān)競賽 134
4.2 面向非結(jié)構(gòu)化數(shù)據(jù)的知識抽取 136
4.2.1 實(shí)體抽取 137
4.2.2 關(guān)系抽取 142
4.2.3 事件抽取 150
4.3 面向結(jié)構(gòu)化數(shù)據(jù)的知識抽取 154
4.3.1 直接映射 154
4.3.2 R2RML 156
4.3.3 相關(guān)工具 159
4.4 面向半結(jié)構(gòu)化數(shù)據(jù)的知識抽取 161
4.4.1 面向百科類數(shù)據(jù)的知識抽取 161
4.4.2 面向Web網(wǎng)頁的知識抽取 165
4.5 知識挖掘 168
4.5.1 知識內(nèi)容挖掘:實(shí)體鏈接 168
4.5.2 知識結(jié)構(gòu)挖掘:規(guī)則挖掘 174
4.6 開源工具實(shí)踐:基于DeepDive的關(guān)系抽取實(shí)踐 178
4.6.1 開源工具的技術(shù)架構(gòu) 178
4.6.2 其他類似工具 180
參考文獻(xiàn) 180
第5章 知識圖譜的融合 184
5.1 什么是知識圖譜融合 184
5.2 知識圖譜中的異構(gòu)問題 185
5.2.1 語言層不匹配 186
5.2.2 模型層不匹配 187
5.3 本體概念層的融合方法與技術(shù) 190
5.3.1 本體映射與本體集成 190
5.3.2 本體映射分類 192
5.3.3 本體映射方法和工具 195
5.3.4 本體映射管理 232
5.3.5 本體映射應(yīng)用 235
5.4 實(shí)例層的融合與匹配 236
5.4.1 知識圖譜中的實(shí)例匹配問題分析 236
5.4.2 基于快速相似度計(jì)算的實(shí)例匹配方法 240
5.4.3 基于規(guī)則的實(shí)例匹配方法 241
5.4.4 基于分治的實(shí)例匹配方法 244
5.4.5 基于學(xué)習(xí)的實(shí)例匹配方法 260
5.4.6 實(shí)例匹配中的分布式并行處理 266
5.5 開源工具實(shí)踐:實(shí)體關(guān)系發(fā)現(xiàn)框架LIMES 266
5.5.1 簡介 266
5.5.2 開源工具的技術(shù)架構(gòu) 267
5.5.3 其他類似工具 269
5.6 本章小結(jié) 269
參考文獻(xiàn) 270
第6章 知識圖譜推理 279
6.1 推理概述 279
6.1.1 什么是推理 279
6.1.2 面向知識圖譜的推理 282
6.2 基于演繹的知識圖譜推理 283
6.2.1 本體推理 283
6.2.2 基于邏輯編程的推理方法 288
6.2.3 基于查詢重寫的方法 295
6.2.4 基于產(chǎn)生式規(guī)則的方法 301
6.3 基于歸納的知識圖譜推理 306
6.3.1 基于圖結(jié)構(gòu)的推理 306
6.3.2 基于規(guī)則學(xué)習(xí)的推理 313
6.3.3 基于表示學(xué)習(xí)的推理 318
6.4 知識圖譜推理新進(jìn)展 324
6.4.1 時(shí)序預(yù)測推理 324
6.4.2 基于強(qiáng)化學(xué)習(xí)的知識圖譜推理 325
6.4.3 基于元學(xué)習(xí)的少樣本知識圖譜推理 326
6.4.4 圖神經(jīng)網(wǎng)絡(luò)與知識圖譜推理 326
6.5 開源工具實(shí)踐:基于Jena和Drools的知識推理實(shí)踐 327
6.5.1 開源工具簡介 327
6.5.2 開源工具的技術(shù)架構(gòu) 327
6.5.3 開發(fā)軟件版本及其下載地址 328
6.5.4 基于Jena的知識推理實(shí)踐 328
6.5.5 基于Drools的知識推理實(shí)踐 329
6.6 本章小結(jié) 329
參考文獻(xiàn) 330
第7章 語義搜索 334
7.1 語義搜索簡介 334
7.2 結(jié)構(gòu)化的查詢語言 336
7.2.1 數(shù)據(jù)查詢 338
7.2.2 數(shù)據(jù)插入 341
7.2.3 數(shù)據(jù)刪除 341
7.3 語義數(shù)據(jù)搜索 342
7.4 語義搜索的交互范式 348
7.4.1 基于關(guān)鍵詞的知識圖譜語義搜索方法 348
7.4.2 基于分面的知識圖譜語義搜索 350
7.4.3 基于表示學(xué)習(xí)的知識圖譜語義搜索 352
7.5 開源工具實(shí)踐 355
7.5.1 功能介紹 355
7.5.2 環(huán)境搭建及數(shù)據(jù)準(zhǔn)備 357
7.5.3 數(shù)據(jù)準(zhǔn)備 357
7.5.4 導(dǎo)入Elasticsearch 360
7.5.5 功能實(shí)現(xiàn) (views.py) 361
7.5.6 執(zhí)行查詢 363
參考文獻(xiàn) 364
第8章 知識問答 366
8.1 知識問答概述 366
8.1.1 知識問答的基本要素 366
8.1.2 知識問答的相關(guān)工作 367
8.1.3 知識問答應(yīng)用場景 369
8.2 知識問答的分類體系 371
8.2.1 問題類型與答案類型 371
8.2.2 知識庫類型 374
8.2.3 智能體類型 375
8.3 知識問答系統(tǒng) 376
8.3.1 NLIDB:早期的問答系統(tǒng) 376
8.3.2 IRQA:基于信息檢索的問答系統(tǒng) 380
8.3.3 KBQA :基于知識庫的問答系統(tǒng) 380
8.3.4 CommunityQA/FAQ-QA:基于問答對匹配的問答系統(tǒng) 381
8.3.5 Hybrid QA Framework 混合問答系統(tǒng)框架 382
8.4 知識問答的評價(jià)方法 386
8.4.1 問答系統(tǒng)的評價(jià)指標(biāo) 386
8.4.2 問答系統(tǒng)的評價(jià)數(shù)據(jù)集 387
8.5 KBQA前沿技術(shù) 392
8.5.1 KBQA面臨的挑戰(zhàn) 392
8.5.2 基于模板的方法 394
8.5.3 基于語義解析的方法 398
8.5.4 基于深度學(xué)習(xí)的傳統(tǒng)問答模塊優(yōu)化 401
8.5.5 基于深度學(xué)習(xí)的端到端問答模型 405
8.6 開源工具實(shí)踐 406
8.6.1 使用Elasticsearch搭建簡單知識問答系統(tǒng) 406
8.6.2 基于gAnswer構(gòu)建中英文知識問答系統(tǒng) 410
8.7 本章小結(jié) 415
參考文獻(xiàn) 416
第9章 知識圖譜應(yīng)用案例 420
9.1 領(lǐng)域知識圖譜構(gòu)建的技術(shù)流程 420
9.1.1 領(lǐng)域知識建模 421
9.1.2 知識存儲 422
9.1.3 知識抽取 422
9.1.4 知識融合 423
9.1.5 知識計(jì)算 423
9.1.6 知識應(yīng)用 424
9.2 領(lǐng)域知識圖譜構(gòu)建的基本方法 425
9.2.1 自頂向下的構(gòu)建方法 425
9.2.2 自頂向下的構(gòu)建方法 426
9.3 領(lǐng)域知識圖譜的應(yīng)用案例 428
9.3.1 電商知識圖譜的構(gòu)建與應(yīng)用 428
9.3.2 圖情知識圖譜的構(gòu)建與應(yīng)用 431
9.3.3 生活娛樂知識圖譜構(gòu)建與應(yīng)用:以美團(tuán)為例 435
9.3.4 企業(yè)商業(yè)知識圖譜的構(gòu)建與應(yīng)用 440
9.3.5 創(chuàng)投知識圖譜的構(gòu)建與應(yīng)用 443
9.3.6 中醫(yī)臨床領(lǐng)域知識圖譜的構(gòu)建與應(yīng)用 448
9.3.7 金融證券行業(yè)知識圖譜應(yīng)用實(shí)踐 452
9.4 本章小結(jié) 460
參考文獻(xiàn) 461