藥品安全輿情是人民群眾最關心、最直接、最現實的利益問題之一, 直接關系到人們的身體健康和生命安全。輿情相關知識的有效表示和組織是當前網絡輿情研究和管理的迫切需求。本書重點研究藥品安全輿情的結構化語料庫, 藥品安全輿情的命名實體識別方法, 藥品安全輿情的命名實體消岐模型和算法, 藥品安全輿情的實體對齊模型和算法, 藥品安全輿情的實體關系抽取方法, 藥品安全輿情的事件知識圖譜系統設計與實現, 為藥品安全輿情監(jiān)測、主題發(fā)現、熱點追蹤和輔助輿情引導等精細化管理提供技術支持。
隨著互聯網的廣泛使用,越來越多的網民依賴網絡獲取有關此類事件的信息,并且互聯網的輿論在事件的發(fā)展過程中變得越來越重要。為一步提高藥品,維護人民的健康權,醫(yī)藥工業(yè)的持續(xù)健康發(fā)展,從輿論監(jiān)督的角度研究國內外藥品的發(fā)展具有十分重要的意義。
所謂語料庫是指出于某些應用目的從各個方面收集的,具有規(guī)模和結構,并且可以被計算機識別的原始語料庫的集合。語料庫的初始構建是基于手動分類的,這種方法不僅耗時長,而且成本很高[B-4]。當今隨著網絡技術的飛速發(fā)展,Web數據挖掘技術為構建語料庫提供了很好臺,來自網絡的大量數據不僅可以提供豐富的語料庫來源,還可以不斷更新語料庫的構建[5]。
1.1.2研究現狀和發(fā)展趨勢
pan style="font-family: 宋體;">研究資料與方法
(pan style="font-family: 宋體;">)數據來源。本章的數據來自KI期刊數據庫。召回條件:主題標題=“輿情”或“構建語料庫”,請參閱來源類別中的熱門期刊。搜索時間范圍是03年pan>月25日到2pan>年pan>月15日,搜索日期是2pan>年3月2日。共獲得489篇樣本。
將CiteSpace5.7.R2軟件的數據轉換和分析周期設置為03一2pan>年,將時間設置為pan>年,并根據節(jié)點的不同類型設置其他參數。通過Excel分析文獻量的變化趨勢,并使用CiteSpace可視化和分析不同維度,例如研究作者、研究機構和關鍵詞共現。本章采用文獻計量法,使用CiteSpace信息可視化軟件對獲得的文行可視化分析和解釋,然后通過對文獻的深入閱讀,對我國OBE的關鍵研究和發(fā)展趨行分類[6。
(2)研究過程。本研究將從知網獲得的489篇文獻以Refworks格式下載,并轉化成CiteSpace能夠識別的WOS格行導入,將時間跨度設置為03—2pan>年。同時,能界面的節(jié)點類型區(qū)域依次選擇主題(Term)、關鍵詞(Keyword)和類別(Category)按鈕,采用“路徑搜索算法(Pathfinder)”運行程序,終對獲得的網絡知識圖行分析[7]。
(3)參數設置。設置軟件的時間為03-2pan>年,時間切片為pan>年,節(jié)點分別設置為作者、機構、關鍵詞,依行合作網絡分析和共現聚類分析,作者與機構TopN閾值設為100,行修剪,關鍵詞TopN閾值設為50,修剪方式為Pathfinder。
2.研究概況
(pan style="font-family: 宋體;">)年度發(fā)文量分析
年度出版物的數量和變化趨勢有助于我們了解這一研究領域的重要和。如圖1-pan style="font-family: 宋體;">所示是對語料庫研究的文獻年度數行的統計分析,在程度上可以反映出該領域的研究趨勢。從增長速度可以看出,03一14年是該研究的輝煌時期,研究數量飛速激增,14-17年該研究呈緩慢增長趨勢,17-2pan>年發(fā)表量呈下降趨勢。
基于知識圖譜可視化分析,本章將語料庫研究分為初始期(03一14年)、發(fā)展期(14-17年)和深化期(17-2pan>年)三個階段,從文獻規(guī)模、學術社群以及熱點主題等方面全程分析藥品輿情的語料庫研究的歷程。
(2)作者分析
在CiteSpace分析工具的節(jié)點類型中選擇“Author”,TopN設定為500,TopN%設定為100,(c,cc,ccv)設定為(pan>,pan>,),其他使用默認參數(樣本量為504篇)。依據文獻計量學中學者普賴斯(Priced)所提出的計算公行統計[8]。本研究發(fā)文多的是現南京師范大學的曲維光教授,發(fā)文量22篇。經計算,發(fā)文量達4篇及4篇以上可視為核心作者。表1-pan>所示為該主題的核心發(fā)文作者。