這是一本能讓讀者快速從零開始構(gòu)建工業(yè)級知識圖譜的著作。作者是知識圖譜和自然語言處理領(lǐng)域的專家,本書得到了OpenKG聯(lián)合創(chuàng)始人王昊奮、清華大學(xué)教授李涓子、東南大學(xué)教授漆桂林、美團(tuán)知識圖譜團(tuán)隊負(fù)責(zé)人張富崢、文因互聯(lián)創(chuàng)始人鮑捷等學(xué)界和業(yè)界知識圖譜扛旗人的一致好評和推薦。
本書不僅詳細(xì)講解了知識圖譜的技術(shù)原理和構(gòu)建工具,而且還循序漸進(jìn)地講解了知識圖譜的構(gòu)建方法、步驟和行業(yè)應(yīng)用。配有大量實戰(zhàn)案例,并且開放了源代碼,確保讀者能學(xué)會并落地。
全書一共8章:
第1章介紹了知識圖譜的概念、模式、應(yīng)用場景和技術(shù)架構(gòu);
第2章圍繞知識圖譜的技術(shù)體系,詳細(xì)闡述了知識的表示與建模、抽取與挖掘、存儲與融合,以及檢索與推理;
第3章通過具體的實例介紹了各種知識圖譜工具的使用;
第4章和第5章從工業(yè)實踐的角度講解了從0到1構(gòu)建通用知識圖譜和領(lǐng)域知識圖譜的步驟和方法,并配備詳細(xì)的代碼解讀;
第6~7章講解了知識圖譜的具體應(yīng)用和一個綜合性的知識圖譜案例問答系統(tǒng),進(jìn)一步指導(dǎo)讀者實踐;
第8章對知識圖譜的未來發(fā)展進(jìn)行了總結(jié)和展望。
(1)作者資深:作者是知識圖譜、自然語言處理等領(lǐng)域的資深A(yù)I技術(shù)專家和算法專家,實戰(zhàn)經(jīng)驗豐富。
(2)維度全面:從知識圖譜技術(shù)原理、構(gòu)建工具、構(gòu)建方法、應(yīng)用案例等多個維度全面展開講解,理論與實踐相結(jié)合。
(3)實操性強(qiáng):手把手教讀者從0到1構(gòu)建工程級知識圖譜的步驟和方法,配備源代碼。
(4)專家力薦:知識圖譜和自然語言處理領(lǐng)域?qū)<易珜懀蹶粖^、李涓子、漆桂林、張富崢、鮑捷等學(xué)術(shù)界和企業(yè)界的專家一致推薦。
為什么寫這本書
知識圖譜,是近年來火熱的研究方向之一,被認(rèn)為是實現(xiàn)認(rèn)知智能的核心基礎(chǔ)技術(shù)。知識圖譜以圖的形式表現(xiàn)客觀世界中的實體、概念及其之間的關(guān)系,致力于解決認(rèn)知智能中的復(fù)雜推理問題。
隨著大數(shù)據(jù)時代的紅利逐漸消失,以深度學(xué)習(xí)為基礎(chǔ)的感知智能逐步觸碰到天花板,理論突破也越來越難。而在認(rèn)知智能的前進(jìn)道路上,基于統(tǒng)計概率的深度學(xué)習(xí)模型仍然無法真正實現(xiàn)和人類相同的推理和理解能力。
充分有效地利用人類社會中海量的知識是可行的解決路徑之一。而知識圖譜將人類知識表示為圖的形式,可以讓機(jī)器更好地利用知識,實現(xiàn)一定程度的智能化。然而,雖然知識圖譜被寄予厚望,可以實現(xiàn)人工智能從感知到認(rèn)知的跨越,但通用知識圖譜的建立和完善是一個漫長的過程。在現(xiàn)階段,知識圖譜還是大量應(yīng)用在簡單場景和垂直場景上,例如搜索引擎、智能問答、語義理解、決策分析、智慧物聯(lián)等。
構(gòu)建知識圖譜是一個系統(tǒng)工程,涉及知識的表示、獲取、存儲、應(yīng)用以及自然語言處理等各項技術(shù),如何全面掌握知識圖譜的構(gòu)建,成為很多同學(xué)和從業(yè)者為關(guān)注的問題?v觀目前市場上的知識圖譜書籍,我們發(fā)現(xiàn),大多數(shù)的書都是以理論介紹為主,雖然內(nèi)容充分翔實,但缺乏應(yīng)用性的梳理和闡述。
寫這本書的初衷,就是希望將我們在實踐中構(gòu)建知識圖譜的經(jīng)驗,包括踩坑的教訓(xùn),以文字的形式做出總結(jié),同時分享給各位奮戰(zhàn)在一線的知識圖譜從業(yè)人員。書中不僅對知識圖譜的概念和理論做了詳細(xì)介紹,同時用開源代碼的形式闡述了落地細(xì)節(jié)。書中代碼資源下載地址為https://github.com/zhangkai-ai/build-kg-from-scratch。
本書一共分為8章。第1章給出了知識圖譜的概覽,第2章圍繞知識圖譜的整體技術(shù)體系,詳細(xì)闡述了知識的表示與建模、抽取與挖掘、存儲與融合,以及檢索與推理。第3章以具體的實例介紹了各種知識圖譜工具的使用。第4章和第5章從實戰(zhàn)的角度帶領(lǐng)讀者從零到一構(gòu)建通用知識圖譜和領(lǐng)域知識圖譜,并配以詳細(xì)的代碼解讀。第6章給出了知識圖譜的具體應(yīng)用。第7章也是從實戰(zhàn)的角度對知識圖譜的問答系統(tǒng)做了詳盡闡述。后第8章給出了知識圖譜的總結(jié)和展望。
知識圖譜領(lǐng)域仍然有很多問題需要解決,需要各位同人一起努力。希望本書能夠為讀者解決問題提供些許幫助。
由于種種原因,本書成稿過程頗有波折。我們要特別感謝編輯楊福川和李藝,他們對本書出版提供了大力支持。
邵浩
資深人工智能技術(shù)專家,復(fù)星集團(tuán)CEO助理,集團(tuán)AI業(yè)務(wù)負(fù)責(zé)人。曾任vivo人工智能研究院算法專家、技術(shù)總監(jiān),曾任狗尾草智能科技AI研究院院長,帶領(lǐng)團(tuán)隊打造了虛擬生命產(chǎn)品的交互引擎。上海市靜安區(qū)首屆優(yōu)秀人才,上海市人才發(fā)展基金獲得者,杭州市高層次人才。中國中文信息學(xué)會青年工作委員會委員,語言與知識計算專委會委員,中國計算機(jī)學(xué)會語音對話與聽覺專委會委員,自然語言處理專委會委員。
日本國立九州大學(xué)工學(xué)博士,亞利桑那州立大學(xué)訪問學(xué)者,曾任上海對外經(jīng)貿(mào)大學(xué)副教授,碩士生導(dǎo)師。共發(fā)表論文 50余篇,專利十余項,在國內(nèi)率先出版了聊天機(jī)器人和預(yù)訓(xùn)練語言模型相關(guān)的著作,主持多項和省部級課題。
張凱
資深A(yù)I算法工程師,主要研究方向包括知識圖譜、對話系統(tǒng)、推薦系統(tǒng)、機(jī)器翻譯等,擁有多年算法落地經(jīng)驗。主導(dǎo)構(gòu)建了開放通用知識圖譜七律,參與了《知識圖譜評測標(biāo)準(zhǔn)》和《知識圖譜白皮書》的編寫。聊天機(jī)器人專業(yè)書籍作者之一。
李方圓
資深A(yù)I算法工程師,主要研究方向包括機(jī)器翻譯、知識圖譜和問答系統(tǒng),具有多年實戰(zhàn)項目經(jīng)驗,現(xiàn)任vivo機(jī)器翻譯團(tuán)隊負(fù)責(zé)人,主導(dǎo)從零構(gòu)建機(jī)器翻譯能力。
張云柯
資深A(yù)I算法工程師,中文信息學(xué)會會員,碩士畢業(yè)于加拿大Queens University,曾任職于奇虎360。主要研究方向包括自然語言處理與知識圖譜,曾于領(lǐng)域內(nèi)知名會議發(fā)表相關(guān)論文,擁有豐富的算法落地經(jīng)驗。
戴錫強(qiáng)
資深A(yù)I算法工程師,主要研究方向為知識圖譜、對話系統(tǒng)等,參與構(gòu)建了百科知識圖譜,醫(yī)藥領(lǐng)域知識圖譜,基于知識圖譜的問答系統(tǒng)等,具有豐富的知識圖譜落地經(jīng)驗。
推薦序
前言
第1章 知識圖譜概覽 1
1.1 知識圖譜序言 1
1.2 知識圖譜基本概念 3
1.2.1 知識圖譜背景 3
1.2.2 知識圖譜的定義 5
1.2.3 典型知識圖譜示例 7
1.3 知識圖譜的模式 10
1.4 為什么需要知識圖譜 13
1.5 知識圖譜的典型應(yīng)用 15
1.6 知識圖譜的技術(shù)架構(gòu) 17
參考文獻(xiàn) 18
第2章 知識圖譜技術(shù)體系 19
2.1 知識表示與知識建模 19
2.1.1 知識表示 19
2.1.2 知識建模 26
2.2 知識抽取與知識挖掘 29
2.2.1 知識抽取 29
2.2.2 知識挖掘 38
2.3 知識存儲與知識融合 42
2.3.1 知識存儲 42
2.3.2 知識融合 47
2.4 知識檢索與知識推理 52
2.4.1 知識檢索 53
2.4.2 知識推理 58
參考文獻(xiàn) 61
第3章 知識圖譜工具 63
3.1 知識建模工具 63
3.1.1 Protégé 64
3.1.2 其他本體建模工具 79
3.1.3 本體建模工具的選擇 83
3.2 知識抽取工具 84
3.2.1 DeepDive 84
3.2.2 其他知識抽取工具 102
3.2.3 知識抽取工具對比 106
3.3 知識存儲工具 107
3.3.1 Neo4j 108
3.3.2 Neo4j安裝與部署 109
3.3.3 可視化 113
3.3.4 圖模型 115
3.3.5 其他圖數(shù)據(jù)庫 120
參考文獻(xiàn) 122
第4章 從零構(gòu)建通用知識圖譜 123
4.1 通用知識表示與抽取 123
4.1.1 通用知識數(shù)據(jù)來源 123
4.1.2 實體層構(gòu)建 126
4.1.3 表述層構(gòu)建 131
4.1.4 概念層構(gòu)建 134
4.2 知識增強(qiáng) 135
4.2.1 實體層知識增強(qiáng) 135
4.2.2 模式完善 139
4.2.3 實體鏈接:表述層與實體層之間的映射 144
4.2.4 實體分類:實體層與概念層之間的映射 146
4.3 百科知識存儲與更新 153
4.3.1 屬性圖存儲模型 154
4.3.2 知識存儲 156
4.3.3 知識更新 168
第5章 領(lǐng)域知識圖譜構(gòu)建 172
5.1 領(lǐng)域知識圖譜概覽 172
5.2 醫(yī)藥領(lǐng)域知識圖譜 173
5.2.1 領(lǐng)域模式構(gòu)建 174
5.2.2 領(lǐng)域知識抽取 176
5.2.3 領(lǐng)域圖譜構(gòu)建 178
5.2.4 圖譜展示 182
5.3 用戶畫像圖譜 183
5.3.1 用戶畫像知識表示 183
5.3.2 知識抽取和挖掘 185
5.3.3 抽取案例 194
參考文獻(xiàn) 207
第6章 知識圖譜應(yīng)用 208
6.1 知識可視化 208
6.1.1 D3 208
6.1.2 ECharts 213
6.1.3 其他工具介紹 220
6.1.4 小結(jié) 225
6.2 實體鏈接 225
6.2.1 實體鏈接的定義 225
6.2.2 實體鏈接的步驟 226
6.2.3 實體鏈接工具 232
6.2.4 實體鏈接的應(yīng)用 242
6.3 知識問答 245
6.3.1 知識問答系統(tǒng)概述 245
6.3.2 知識問答系統(tǒng)的主要流程 247
6.3.3 主流知識問答系統(tǒng)介紹 252
6.3.4 問答系統(tǒng)實戰(zhàn) 260
6.4 聯(lián)想 277
6.4.1 聯(lián)想整體流程 278
6.4.2 話題識別 279
6.4.3 候選話題生成 280
6.4.4 候選話題排序 282
6.4.5 聯(lián)想回復(fù)生成 290
參考文獻(xiàn) 292
第7章 基于知識圖譜的問答系統(tǒng) 297
7.1 簡介 297
7.2 自然語言理解 300
7.2.1 概述 300
7.2.2 基礎(chǔ)NLU 301
7.2.3 意圖理解 309
7.2.4 實體識別與鏈接 317
7.2.5 文本相似度與向量化 317
7.3 對話管理 322
7.3.1 概述 322
7.3.2 知識問答 327
7.3.3 閑聊 331
7.4 自然語言生成 332
7.5 服務(wù)化 333
參考文獻(xiàn) 335
第8章 總結(jié)與展望 336
參考文獻(xiàn) 338