定 價:58 元
叢書名:國家社會科學基金項目“圖書館資源組織語義化理論及方法研究”組織
- 作者:劉耀 著
- 出版時間:2018/2/1
- ISBN:9787518936427
- 出 版 社:科學技術文獻出版社
- 中圖法分類:G253.5
- 頁碼:185
- 紙張:膠版紙
- 版次:1
- 開本:16開
圖書館資源組織語義化是圖書館資源語義標注的淺層標注,是內容語義化與形式語義化交互實現的過程!秷D書館資源組織語義化理論及方法研究》在借鑒國內外研究成果的前提下,提出了形式語義化與內容語義化交互的資源組織語義化理論與技術方案。在整體上以“原理方法、技術實現、案例應用”為結構體例,以“技術工具化、工具業(yè)務化、業(yè)務自動化”為目標,詳細闡述了圖書館資源組織語義化涉及的資源獲取、資源解析、數據交換、資源加工、資源結構化、本體構建、語義標注等關鍵技術的原理、流程及方法,并以真實的行業(yè)領域應用案例闡述了實現資源組織語義化的全過程,以便讀者能夠從理論和實踐兩個方面理解相關思想及方法,達到既能掌握知識又能運用技術進行資源組織語義化實踐的目標。
光陰荏苒,我在中國科學技術信息研究所工作已有10年光景。2007年,我從北京大學計算語言學研究所博士后出站,之后一直從事自然語言處理、知識組織與知識工程相關的工作。多年在一線進行研究與實踐工作,一路走來積累了豐富的經驗,在不斷迭代和升華中,逐漸形成了一套完整的覆蓋資源獲取、資源加工到知識服務全流程的思想理論。在該理論思想的指導下,圍繞著技術目標,我領導團隊逐步開展工程實踐研究,對理論方法進行驗證。同時,根據工程實踐中的具體問題,進行關鍵技術攻關,對其中的一些流程、步驟、細節(jié)等進行了微調和補充,不斷升級與完善PYROIS系統。PYROIS系統初建于2007年,2011年年初,PYROIS系統1.0版本上線,目前該系統3.0版本已研發(fā)完成。
我在很早之前就有想要寫這本書的想法,分享研究實踐中的一些想法和體會,為從事相關研究的人員提供一些思路、方法和參考,但一直沒有時間。其間,也陸陸續(xù)續(xù)地發(fā)表了一些研究論文,但沒有進行系統性闡述。PYROIS系統3.O版上線之后,空閑時間較以前也多了些,我便抓緊時間完成了早已有的寫書的想法。
本書的主要思想是利用自然語言處理技術和機器學習方法對已有的公認領域知識進行重構并加以利用;在構建領域本體的基礎上,對相關文獻進行語義標注;并在大量內容相對語義化的基礎上,結合傳統組織資源,通過機器學習等方法,生成初始語義元數據;然后,在輔助平臺的幫助下,實現圖書館資源組織語義化過程與語義元數據體系構建同步進行,將語義標注文獻與語義索引分別存儲,實現圖書館資源組織語義化。
在思想理論指導及技術目標的驅動下,相關研究及實踐工作體現在以下幾個方面。
知識元數據庫構建技術。從充分開發(fā)和利用百科全書資源的角度出發(fā),利用自然語言處理技術和語言分析工具分析百科全書資源,發(fā)現其中隱含的知識點及其之間的內在關聯,將大量的、不斷出現的知識點結構化地組織和關聯起來,構成智能連接的網狀圖,建立知識元數據庫。
語義元數據構建與標注一體化技術。將圖書館資源組織語義化看作圖書館資源語義標注的淺層標注,是內容語義化與形式語義化交互實現的過程,基于NIP理論與方法,結合傳統圖書館資源組織方式與領域本體構建技術,搭建輔助構建及標注一體化平臺,實現語義元數據體系構建與資源組織語義化過程同步實施。
領域本體自動構建技術。通過領域本體構建、語義標注等信息技術的融合與集成,將行業(yè)領域知識合理分類,構建以知識點為基本單元的圖書、期刊、專利數據庫,以智能檢索、知識語義導航、可視化等方式為科學研究、技術開發(fā)、工程設計、工程應用的開展提供知識服務,實現知識的共享與重用。
一體化爬蟲技術。針對語義爬蟲存在的不足,實現從一個概念出發(fā),自動生成語義結構,用該語義結構指導爬蟲抓取數據資源;同時,在爬蟲爬行過程中,不斷從數據庫中抽取相關的概念及其之間的關系,并填充進語義結構,實現語義結構進化和爬蟲爬行迭代一體化。
劉耀,博士,中國科學技術信息研究所研究員;國家科技信息資源綜合利用與公共服務中心副主任:北京大學信息管理系管理學博士:北京大學計算語言學研究所出站博士后;中國社會科學情報學會理事會常務理事、副秘書長:中國計算機學會杰出會員:北京大學軟件與微電子學院外聘碩士研究生導師;主要從事自然語言處理、知識工程方向研究。先后發(fā)表學術論文80余篇,出版學術著作5部,主編、副主編教材各1部,參編著作6部;先后主持、參加完成包括國家重點研發(fā)計劃、國家科技支撐計劃、國家重點基礎研究發(fā)展計劃(973)、國家社會科學基金在內的科研項目30余項(主持10余項);獲省部級獎勵5項、行業(yè)及協會獎5項,申請發(fā)明專利3項,申請軟件著作權20余項。
1 緒論
1.1 研究意義
1.2 研究思路
1.3 研究內容
1.4 關鍵問題
1.5 創(chuàng)新之處
1.6 撰寫思路
1.7 本章小結
2 多資源融合
2.1 資源獲取
2.1.1 網絡資源獲取
2.1.2 數據庫資源獲取
2.1.3 本地資源獲取
2.2 資源解析
2.2.1 多種資源類型解析
2.2.2 多模態(tài)資源的解析
2.3 數據交換
2.3.1 數據交換技術
2.3.2 標準化體系建設
2.4 資源存儲
2.5 本章小結
3 資源加工與結構化
3.1 占構化語料加工
3.1.1 詞性標注及消歧
3.1.2 詞性標注及消歧的主要功能
3.1.3 句法自動標注
3.1.4 語義角色自動標注
3.1.5 文本分割
3.1.6 句間及段落關系標注
3.2 結構化詞表構建
3.2.1 專業(yè)詞典構建
3.2.2 語義詞典構建
3.2.3 概念詞表構建
3.2.4 同義詞表構建
3.3 定制化處理
3.3.1 基本原理
3.3.2 模型構建
3.3.3 實驗與結果分析
3.4 本章小結
4 本體構建技術
4.1 相關理論
4.2 總體框架
4.2.1 基礎流程
4.2.2 擴充流程
4.3 模型構建
4.3.1 樹狀結構到多層嵌套網狀結構
4.3.2 文獻檢索到專家系統
4.3.3 自然語言描述到主題詞描述
4.4 概念獲取
4.4.1 基本思想
4.4.2 技術實現
4.4.3 實驗與結果分析
4.5 屬性獲取
4.5.1 基本思想
4.5.2 技術實現
4.5.3 實驗與結果分析
4.6 關系獲取
4.6.1 基本思想
4.6.2 技術實現
4.6.3 實驗與結果分析
4.7 本章小結
5 語義資源生成與標注一體化
5.1 語義資源生成
5.1.1 基于種子文件
5.1.2 基于本體結構與語料
5.2 語義標注
5.2.1 技術框架與思路
5.2.2 語義標注算法
5.2.3 實驗與結果分析
5.3 語義資源評價
5.3.1 概念覆蓋程度評價
5.3.2 屬性完整性評價
5.3.3 語義關系復雜度評價
5.4 本章小結
6 應用案例研究
6.1 雷達語義資源生成與標注一體化
6.1.1 目標與要求
6.1.2 分析與構建
6.1.3 構建結果
6.1.4 拓展應用
6.2 面向技術創(chuàng)新的鋁行業(yè)資源組織語義化
6.2.1 目標與需求
6.2.2 分析與構建
6.2.3 構建結果
6.2.4 應用服務
6.3 本章小結
參考文獻