知識圖譜是一種大規(guī)模語義網(wǎng)絡(luò),已經(jīng)成為大數(shù)據(jù)時代知識工程的代表性進(jìn)展。知識圖譜技術(shù)是實(shí)現(xiàn)機(jī)器認(rèn)知智能和推動各行業(yè)智能化發(fā)展的關(guān)鍵基礎(chǔ)技術(shù)。知識圖譜也成為大規(guī)模知識工程的代表性實(shí)踐,其學(xué)科日益完善。本書是一本系統(tǒng)介紹知識圖譜概念、技術(shù)與實(shí)踐的書籍。全書共五篇,由16章構(gòu)成,力求涵蓋知識圖譜相關(guān)的基本概念與關(guān)鍵技術(shù)。“基礎(chǔ)篇”介紹知識圖譜的基本概念、內(nèi)涵與外延、歷史沿革、應(yīng)用價值,以及相關(guān)的基礎(chǔ)知識。“構(gòu)建篇”重點(diǎn)介紹大規(guī)模高質(zhì)量知識圖譜的自動化構(gòu)建技術(shù),涵蓋詞匯挖掘、實(shí)體識別、關(guān)系抽取及概念圖譜構(gòu)建、百科圖譜構(gòu)建、眾包構(gòu)建與質(zhì)量控制等專題!肮芾砥毕到y(tǒng)地闡述了知識圖譜建模與存儲、查詢與檢索,以及圖數(shù)據(jù)管理系統(tǒng)!皯(yīng)用篇”對于基于知識圖譜的關(guān)鍵應(yīng)用技術(shù)展開介紹,包括搜索與推薦、自然語言問答,以及基于知識圖譜的自然語言理解!皩(shí)踐篇”介紹知識圖譜實(shí)踐中的基本原則和有用實(shí)踐,初步討論了知識圖譜實(shí)踐中的開放性問題。
主要作者 肖仰華 博士,復(fù)旦大學(xué)教授、博士生導(dǎo)師、復(fù)旦大學(xué)知識工場實(shí)驗室創(chuàng)始人。曾擔(dān)任多家企業(yè)高級技術(shù)顧問與首席科學(xué)家。曾獲得十多個國家、省/市、企業(yè)級的研究獎項,曾承擔(dān)三十多項國家、省/市、企業(yè)級研發(fā)項目。在國際頂級學(xué)術(shù)會議與期刊(包括SIGMOD、VLDB、ICDE、IJCAI、AAAI、ACL、TKDE等)發(fā)表論文百余篇,授權(quán)近20項知識圖譜專利。擔(dān)任多個國際期刊編委,百余次為國際/國內(nèi)學(xué)術(shù)機(jī)構(gòu)/會議提供學(xué)術(shù)服務(wù)工作。領(lǐng)導(dǎo)構(gòu)建了知識工場平臺,發(fā)布了一系列知識圖譜包括CN-DBpedia、CN-Probase等。
第1篇 基礎(chǔ)篇
第1章 知識圖譜概述 2
1.1 知識圖譜的基本概念 2
1.1.1 知識圖譜的狹義概念 3
1.1.2 知識圖譜的廣義概念 8
1.2 知識圖譜的歷史沿革 10
1.2.1 知識圖譜溯源 10
1.2.2 大數(shù)據(jù)知識工程 13
1.3 知識圖譜的研究意義 16
1.3.1 知識圖譜是認(rèn)知智能的基石 16
1.3.2 知識引導(dǎo)成為解決問題的重要方式之一 19
1.4 知識圖譜的應(yīng)用價值 20
1.4.1 數(shù)據(jù)分析 20
1.4.2 智慧搜索 21
1.4.3 智能推薦 22
1.4.4 自然人機(jī)交互 23
1.4.5 決策支持 23
1.5 知識圖譜的分類 24
1.5.1 知識圖譜中的知識分類 25
1.5.2 知識圖譜的領(lǐng)域特性 26
1.5.3 典型知識圖譜 30
本章小結(jié) 38
思考題 39
參考文獻(xiàn) 40
第2章 基礎(chǔ)知識 43
2.1 概述 43
2.2 知識表示 45
2.2.1 基本概念 45
2.2.2 知識圖譜的圖表示 47
2.2.3 知識圖譜的數(shù)值表示 49
2.2.4 其他相關(guān)知識表示 54
2.3 機(jī)器學(xué)習(xí) 64
2.3.1 機(jī)器學(xué)習(xí)的基本概念 65
2.3.2 深度學(xué)習(xí)概述 67
2.3.3 卷積神經(jīng)網(wǎng)絡(luò) 70
2.3.4 循環(huán)神經(jīng)網(wǎng)絡(luò) 71
2.3.5 注意力機(jī)制 72
2.4 自然語言處理 73
2.4.1 基本概念 74
2.4.2 文本的向量化表示 76
本章小結(jié) 78
思考題 79
參考文獻(xiàn) 80
第2篇 構(gòu)建篇
第3章 詞匯挖掘與實(shí)體識別 84
3.1 概述 84
3.2 領(lǐng)域短語挖掘 86
3.2.1 問題描述 87
3.2.2 領(lǐng)域短語挖掘方法 88
3.2.3 統(tǒng)計指標(biāo)特征 91
3.3 同義詞挖掘 95
3.3.1 概述 95
3.3.2 典型方法 96
3.4 縮略詞抽取 101
3.4.1 縮略詞的概念與形式 101
3.4.2 縮略詞的檢測與抽取 103
3.4.3 縮略詞的預(yù)測 105
3.5 實(shí)體識別 109
3.5.1 概述 109
3.5.2 傳統(tǒng)的NER方法 110
3.5.3 基于深度學(xué)習(xí)的NER方法 114
3.5.4 近期的一些方法 120
本章小結(jié) 121
思考題 122
參考文獻(xiàn) 122
第4章 關(guān)系抽取 127
4.1 概述 127
4.1.1 關(guān)系抽取的問題和方法分類 128
4.1.2 關(guān)系抽取常用數(shù)據(jù)集 130
4.1.3 關(guān)系抽取評估方法 131
4.2 基于模式的抽取 133
4.2.1 基于字符模式的抽取 134
4.2.2 基于語法模式的抽取 135
4.2.3 基于語義模式的抽取 135
4.2.4 自動化模式獲。鹤耘e法 136
4.2.5 基于模式抽取的質(zhì)量評估 138
4.3 基于學(xué)習(xí)的抽取 139
4.3.1 基于監(jiān)督學(xué)習(xí)的關(guān)系抽取 140
4.3.2 基于遠(yuǎn)程監(jiān)督學(xué)習(xí)的關(guān)系抽取 142
4.3.3 基于深度學(xué)習(xí)的關(guān)系抽取 144
4.4 開放關(guān)系抽取 150
4.4.1 TextRunner 151
4.4.2 ReVerb 152
4.4.3 Ollie 154
本章小結(jié) 154
思考題 156
參考文獻(xiàn) 157
第5章 概念圖譜構(gòu)建 160
5.1 概述 160
5.1.1 常見的概念圖譜 163
5.1.2 概念圖譜的應(yīng)用 166
5.2 isA關(guān)系抽取 168
5.2.1 基于在線百科的方法 169
5.2.2 基于模式的方法 170
5.2.3 中文概念圖譜的構(gòu)建 172
5.3 isA關(guān)系補(bǔ)全 175
5.3.1 isA關(guān)系缺失的成因 176
5.3.2 基于isA關(guān)系傳遞性的概念圖譜補(bǔ)全 177
5.3.3 基于協(xié)同過濾思想的概念圖譜補(bǔ)全 179
5.4 isA關(guān)系糾錯 181
5.4.1 錯誤的成因 182
5.4.2 基于支持度的糾錯 183
5.4.3 基于圖模型的糾錯 184
本章小結(jié) 185
思考題 186
參考文獻(xiàn) 187
第6章 百科圖譜構(gòu)建 189
6.1 概述 189
6.1.1 什么是百科圖譜 189
6.1.2 百科圖譜的意義 190
6.1.3 百科圖譜的分類 191
6.2 基于單源的百科圖譜構(gòu)建 192
6.2.1 數(shù)據(jù)獲取 193
6.2.2 屬性抽取 195
6.2.3 關(guān)系構(gòu)建 200
6.2.4 概念層級體系構(gòu)建 201
6.2.5 實(shí)體分類 201
6.3 基于多源的百科圖譜融合 207
6.3.1 基于多個知識圖譜的融合方法 207
6.3.2 基于多源異構(gòu)數(shù)據(jù)的融合方法 215
本章小結(jié) 216
思考題 217
參考文獻(xiàn) 217
第7章 知識圖譜的眾包構(gòu)建 221
7.1 概述 221
7.2 知識型眾包的基本概念 223
7.3 知識型眾包研究的問題 226
7.3.1 What(對什么任務(wù)進(jìn)行眾包) 226
7.3.2 Whom(將任務(wù)交予誰完成) 229
7.3.3 How(如何完成眾包) 230
7.4 基于眾包的知識圖譜構(gòu)建與精化 235
7.4.1 本體構(gòu)建階段的人工介入 235
7.4.2 知識圖譜構(gòu)建階段的人工介入 237
7.4.3 知識圖譜精化階段的人工介入 242
本章小結(jié) 244
思考題 245
參考文獻(xiàn)
第8章 知識圖譜的質(zhì)量控制 250
8.1 概述 251
8.1.1 知識圖譜質(zhì)量評估的維度 251
8.1.2 知識圖譜質(zhì)量評估的方法 253
8.1.3 知識圖譜質(zhì)量控制全周期概覽 254
8.2 缺失知識的發(fā)現(xiàn)與補(bǔ)全 260
8.2.1 類型補(bǔ)全 260
8.2.2 關(guān)系補(bǔ)全 263
8.2.3 屬性值補(bǔ)全 268
8.3 錯誤知識的發(fā)現(xiàn)與糾正 270
8.3.1 錯誤實(shí)體類型檢測 271
8.3.2 錯誤實(shí)體關(guān)系檢測 271
8.3.3 錯誤屬性值檢測 273
8.4 過期知識的更新 274
8.4.1 基于更新頻率預(yù)測的更新機(jī)制 275
8.4.2 基于時間標(biāo)簽的更新機(jī)制 276
8.4.3 基于熱點(diǎn)事件發(fā)現(xiàn)的更新機(jī)制 277
本章小結(jié) 278
思考題 279
參考文獻(xiàn) 280
第3篇 管理篇
第9章 知識圖譜的建模與存儲 286
9.1 概述 286
9.2 知識圖譜的數(shù)據(jù)模型 287
9.2.1 知識圖譜的三元組模型 287
9.2.2 知識圖譜的圖模型 291
9.3 知識圖譜的物理存儲 296
9.3.1 知識圖譜數(shù)據(jù)的基本操作 296
9.3.2 知識圖譜的關(guān)系表存儲 297
9.3.3 知識圖譜的圖存儲 302
9.3.4 分布式計算環(huán)境下的知識圖譜數(shù)據(jù)存儲 305
本章小結(jié) 309
思考題 310
參考文獻(xiàn) 310
第10章 知識圖譜的查詢與檢索 314
10.1 概述 314
10.2 查詢語言:SPARQL 315
10.2.1 簡單查詢 315
10.2.2 SPARQL查詢機(jī)制及知識圖譜上的推理 321
10.3 子圖查詢 324
10.3.1 子圖查詢基本知識 324
10.3.2 近似子圖查詢 326
10.3.3 Top-k查詢 331
10.3.4 索引結(jié)構(gòu) 334
10.4 其他查詢 335
10.4.1 路徑查詢 335
10.4.2 關(guān)鍵詞查詢 337
10.4.3 社團(tuán)搜索 339
本章小結(jié) 342
思考題 343
參考文獻(xiàn) 343
第11章 圖數(shù)據(jù)管理系統(tǒng) 347
11.1 概述 347
11.2 知識圖譜與圖數(shù)據(jù)管理系統(tǒng) 348
11.2.1 大圖管理的挑戰(zhàn) 350
11.2.2 圖數(shù)據(jù)管理系統(tǒng)的重要性 352
11.2.3 圖數(shù)據(jù)管理系統(tǒng)管理知識圖譜的挑戰(zhàn) 354
11.3 圖數(shù)據(jù)管理系統(tǒng)的基本架構(gòu)和設(shè)計原則 357
11.4 典型的圖數(shù)據(jù)管理系統(tǒng) 360
11.4.1 通用圖數(shù)據(jù)管理系統(tǒng) 361
11.4.2 知識圖譜專用圖數(shù)據(jù)管理系統(tǒng) 364
11.4.3 圖數(shù)據(jù)管理系統(tǒng)使用實(shí)例 366
本章小結(jié) 370
思考題 371
參考文獻(xiàn) 371
第4篇 應(yīng)用篇
第12章 基于知識圖譜的語言認(rèn)知 374
12.1 概述 375
12.1.1 語言理解的挑戰(zhàn) 375
12.1.2 語言理解需要知識圖譜 376
12.1.3 語言理解的任務(wù) 377
12.2 實(shí)體理解 378
12.2.1 基本模型 379
12.2.2 局部實(shí)體鏈接分?jǐn)?shù) 380
12.2.3 全局實(shí)體鏈接分?jǐn)?shù) 381
12.2.4 模型計算 382
12.2.5 短文本實(shí)體鏈接 388
12.2.6 跨語言實(shí)體鏈接 389
12.3 概念理解 391
12.3.1 單實(shí)例概念理解 391
12.3.2 多實(shí)例概念理解 393
12.3.3 短語概念理解 395
12.3.4 關(guān)系對概念理解 397
12.3.5 概念理解應(yīng)用舉例 398
12.4 屬性理解 399
本章小結(jié) 401
思考題 402
參考文獻(xiàn) 402
第13章 基于知識圖譜的搜索與推薦 405
13.1 概述 405
13.2 基于知識圖譜的搜索 408
13.2.1 搜索概述 408
13.2.2 搜索意圖理解 411
13.2.3 目標(biāo)查找 413
13.2.4 結(jié)果呈現(xiàn) 413
13.2.5 實(shí)體探索 414
13.3 基于知識圖譜的推薦 419
13.3.1 推薦的基本問題與挑戰(zhàn) 419
13.3.2 基于知識圖譜的物品畫像 422
13.3.3 基于知識圖譜的用戶畫像 427
13.3.4 基于知識圖譜的跨領(lǐng)域推薦 429
13.3.5 基于知識圖譜的可解釋推薦 432
本章小結(jié) 433
思考題 435
參考文獻(xiàn) 435
第14章 基于知識圖譜的問答 438
14.1 概述 438
14.1.1 問答系統(tǒng) 438
14.1.2 KBQA 441
14.2 基于模板的KBQA 449
14.2.1 基于模板的意圖識別 449
14.2.2 基于模板的屬性關(guān)聯(lián) 451
14.3 基于圖模型的KBQA 453
14.3.1 監(jiān)督學(xué)習(xí)方法 453
14.3.2 無監(jiān)督方法 455
14.4 基于深度學(xué)習(xí)的KBQA 457
14.4.1 表示學(xué)習(xí) 458
14.4.2 分類模型 459
14.4.3 生成模型 461
本章小結(jié) 462
思考題 463
參考文獻(xiàn) 464
第5篇 實(shí)踐篇
第15章 知識圖譜實(shí)踐 468
15.1 概述 468
15.1.1 知識圖譜應(yīng)用的推動力 469
15.1.2 知識圖譜應(yīng)用與產(chǎn)業(yè)現(xiàn)狀 471
15.1.3 知識圖譜實(shí)踐的系統(tǒng)工程觀念 472
15.1.4 知識圖譜助力行業(yè)智能化的演進(jìn)路徑 474
15.2 知識圖譜系統(tǒng) 476
15.2.1 知識圖譜系統(tǒng)的外部環(huán)境 476
15.2.2 知識圖譜系統(tǒng)的關(guān)鍵要素 477
15.2.3 知識圖譜系統(tǒng)的典型架構(gòu) 479
15.3 知識圖譜工程 485
15.3.1 基本原則 486
15.3.2 過程模型 489
15.3.3 可行性分析 491
15.3.4 實(shí)踐建議 495
本章小結(jié) 499
思考題 499
參考文獻(xiàn) 500
第16章 開放性問題 501
16.1 知識表示 501
16.1.1 與其他知識表示相聯(lián)合的語義增強(qiáng) 501
16.1.2 過程語義增強(qiáng) 502
16.1.3 時空語義增強(qiáng) 503
16.1.4 跨模態(tài)語義增強(qiáng) 504
16.2 知識獲取 504
16.2.1 低成本知識獲取 505
16.2.2 復(fù)雜知識的獲取 506
16.2.3 知識獲取中的人機(jī)協(xié)作與評測 508
16.3 知識應(yīng)用 509
16.3.1 知識圖譜上的推理 509
16.3.2 符號知識增強(qiáng)機(jī)器學(xué)習(xí) 510
16.3.3 基于知識圖譜的可解釋人工智能 511
16.3.4 知識圖譜的個性化問題 511
本章小結(jié) 512
思考題 513
參考文獻(xiàn) 513