本書把數(shù)據(jù)視為基礎資源,根據(jù)軟件工程的思想,總結了數(shù)據(jù)利用的歷程,講述了數(shù)據(jù)倉庫的基礎知識和工具,研究了數(shù)據(jù)挖掘的任務及其挑戰(zhàn),給出了經(jīng)典的數(shù)據(jù)挖掘算法,介紹了數(shù)據(jù)挖掘的產(chǎn)品,剖析了稅務數(shù)據(jù)挖掘的案例,探索了大數(shù)據(jù)的管理和應用問題。
全書仰望前景,深入淺出,強調基礎,注重應用,是軟件工程及相關專業(yè)的高年級本科生、研究生的理想教材,亦可作為相關領域的參考用書。
(1)利用軟件工程組織內容! 。2)講述了數(shù)據(jù)倉庫的基礎知識和工具 (3)研究了數(shù)據(jù)挖掘的任務及其挑戰(zhàn) 。4)給出了經(jīng)典的數(shù)據(jù)挖掘算法 (5)介紹了數(shù)據(jù)挖掘的產(chǎn)品 (6)剖析了稅務數(shù)據(jù)挖掘的案例 。7)探索了大數(shù)據(jù)的管理和應用問題
王樹良,男,1975年生,工學博士,雙博士后,武漢大學教授,博士生導師,美國Carnegie Mellon University的 iCarnegie 教師,現(xiàn)任北京理工大學軟件學院副院長、副書記。全國百篇優(yōu)秀博士學位論文、國家測繪科技進步一等獎、湖北省自然科學優(yōu)秀學術論文二等獎、“花旗集團金融信息科技教育基金”優(yōu)秀獎教金、第七屆“武漢大學杰出青年”等榮譽獲得者。新西蘭惠靈頓理工大學、澳大利亞昆士蘭大學、香港理工大學等大學訪問學者。擔任International Journal of System Science、 International Journal of Data Mining and Data Warehousing、Lecture Notes in Artificial Intelligence等學術刊物的Guest Editor,Data Mining and Knowledge Discovery、International Journal of General System、Information Science、International Journal of Geographical Information Science、ISPRS Journal of Photogrammetric and Remote Sensing、PE&RS等學術期刊審稿人,國家863、國家自然科學基金等項目評審人,International Conference on Advanced Data Mining and Applications學術委員會合作主席,International Symposium on Multi-spectrum Image Processing and Pattern Recognition、International Conference on Supply Chain Management and Information Systems等學術委員會委員。主要研究方向包括空間數(shù)據(jù)挖掘、軟件工程等,發(fā)表學術論文多篇,其中大部分為SCI、EI、ISTP所收錄,在國內外出版專著6部,其中Springer出版2部、SPIE出版1部。 主要教學經(jīng)歷 。1)本科生:數(shù)據(jù)庫系統(tǒng) 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘概論 (2)碩士研究生:高級數(shù)據(jù)庫 數(shù)據(jù)倉庫與商務智能 數(shù)據(jù)挖掘與知識發(fā)現(xiàn) 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘(3)博士研究生:空間數(shù)據(jù)挖掘
第1章 數(shù)據(jù)倉庫和數(shù)據(jù)挖掘
概述... 1
1.1 概述... 1
1.1.1 數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的目標... 1
1.1.2 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的發(fā)展歷程... 2
1.2 數(shù)據(jù)中心... 4
1.2.1 關系型數(shù)據(jù)中心... 4
1.2.2 非關系型數(shù)據(jù)中心... 4
1.2.3 混合型數(shù)據(jù)中心(大數(shù)據(jù)平臺)... 6
1.3 混合型數(shù)據(jù)中心參考架構... 7
1.3.1 基礎設施層... 8
1.3.2 數(shù)據(jù)源層... 8
1.3.3 交換服務體系... 8
1.3.4 數(shù)據(jù)存儲區(qū)... 9
1.3.5 基礎服務層... 10
1.3.6 應用層... 12
1.3.7 用戶終端層... 12
1.3.8 數(shù)據(jù)治理... 12
1.3.9 元數(shù)據(jù)管理... 12
1.3.10 IT安全運維管理... 13
1.3.11 IT綜合監(jiān)控... 14
1.3.12 企業(yè)資產(chǎn)管理... 14
思考題... 14
第2章 數(shù)據(jù)... 15
2.1 數(shù)據(jù)的概念... 15
2.2 數(shù)據(jù)的內容... 15
2.2.1 實時數(shù)據(jù)與歷史數(shù)據(jù)... 15
2.2.2 事務數(shù)據(jù)與時態(tài)數(shù)據(jù)... 16
2.2.3 圖形數(shù)據(jù)與圖像數(shù)據(jù)... 16
2.2.4 主題數(shù)據(jù)與全局數(shù)據(jù)... 17
2.2.5 空間數(shù)據(jù)... 17
2.2.6 序列數(shù)據(jù)和數(shù)據(jù)流... 18
2.2.7 元數(shù)據(jù)與數(shù)據(jù)字典... 19
2.3 數(shù)據(jù)屬性及數(shù)據(jù)集... 20
2.4 數(shù)據(jù)特征的統(tǒng)計描述... 21
2.4.1 集中趨勢... 21
2.4.2 離散程度... 23
2.4.3 數(shù)據(jù)的分布形狀... 24
2.5 數(shù)據(jù)的可視化... 24
2.6 數(shù)據(jù)相似性與相異性的度量... 27
2.7 數(shù)據(jù)質量... 30
2.8 數(shù)據(jù)預處理... 31
2.8.1 被污染的數(shù)據(jù)... 31
2.8.2 數(shù)據(jù)清理... 33
2.8.3 數(shù)據(jù)集成... 34
2.8.4 數(shù)據(jù)變換... 35
2.8.5 數(shù)據(jù)規(guī)約... 36
思考題... 36
第3章 數(shù)據(jù)倉庫與數(shù)據(jù)ETL
基礎... 37
3.1 從數(shù)據(jù)庫到數(shù)據(jù)倉庫... 37
3.2 數(shù)據(jù)倉庫的結構... 38
3.2.1 兩層體系結構... 39
3.2.2 三層體系結構... 39
3.2.3 組成元素... 40
3.3 數(shù)據(jù)倉庫的數(shù)據(jù)模型... 41
3.3.1 概念模型... 41
3.3.2 邏輯模型... 41
3.3.3 物理模型... 44
3.4 ETL.. 44
3.4.1 數(shù)據(jù)抽取... 45
3.4.2 數(shù)據(jù)轉換... 46
3.4.3 數(shù)據(jù)加載... 46
3.5 OLAP. 47
3.5.1 維... 47
3.5.2 OLAP與OLTP. 47
3.5.3 OLAP的基本操作... 48
3.6 OLAP的數(shù)據(jù)模型... 49
3.6.1 ROLAP. 49
3.6.2 MOLAP. 50
3.6.3 HOLAP. 50
思考題... 51
第4章 數(shù)據(jù)倉庫和ETL工具... 52
4.1 IBM DB2 V10. 52
4.1.1 自適應壓縮... 52
4.1.2 多溫度存儲... 53
4.1.3 時間旅行查詢... 54
4.1.4 DB2兼容性功能... 58
4.1.5 工作負載管理... 58
4.1.6 PureXML.. 60
4.1.7 當前已落實... 61
4.1.8 DB2 PureScale Feature. 61
4.1.9 分區(qū)特性... 63
4.1.10 并行技術... 65
4.1.11 SQW... 65
4.1.12 Cubing Services. 65
4.1.13 列式存儲及壓縮技術... 66
4.2 InfoSphere Datastage. 68
4.2.1 基于Information Server
的架構... 69
4.2.2 企業(yè)級實施和管理... 72
4.2.3 高擴展的體系架構... 75
4.2.4 具備線性擴充能力... 77
4.2.5 ETL元數(shù)據(jù)管理... 78
4.3 InfoSphere QualityStage. 78
思考題... 80
第5章 數(shù)據(jù)挖掘基礎... 81
5.1 數(shù)據(jù)挖掘的起源... 81
5.2 數(shù)據(jù)挖掘的定義... 82
5.3 數(shù)據(jù)挖掘的任務... 83
5.3.1 分類... 83
5.3.2 回歸分析... 85
5.3.3 相關分析... 85
5.3.4 聚類分析... 85
5.3.5 關聯(lián)規(guī)則... 87
5.3.6 異常檢測... 88
5.4 數(shù)據(jù)挖掘標準流程... 88
5.4.1 商業(yè)理解... 89
5.4.2 數(shù)據(jù)理解... 90
5.4.3 數(shù)據(jù)準備... 90
5.4.4 建立模型... 90
5.4.5 模型評估... 89
5.4.6 發(fā)布... 91
5.5 數(shù)據(jù)挖掘的十大挑戰(zhàn)性問題... 91
5.5.1 數(shù)據(jù)挖掘統(tǒng)一理論的探索... 91
5.5.2 高維數(shù)據(jù)和高速數(shù)據(jù)流的研究與應用... 92
5.5.3 時序數(shù)據(jù)的挖掘與降噪... 92
5.5.4 從復雜數(shù)據(jù)中尋找復雜知識... 92
5.5.5 網(wǎng)絡環(huán)境中的數(shù)據(jù)挖掘... 92
5.5.6 分布式數(shù)據(jù)挖掘... 93
5.5.7 生物醫(yī)學和環(huán)境科學數(shù)據(jù)挖掘... 93
5.5.8 數(shù)據(jù)挖掘過程自動化與可視化... 93
5.5.9 信息安全與隱私保護... 93
5.5.10 動態(tài)、不平衡及成本敏感數(shù)據(jù)的挖掘 93
思考題... 94
第6章 數(shù)據(jù)挖掘算法... 95
6.1 算法評估概述... 95
6.1.1 分類算法及評估指標... 95
6.1.2 聚類算法及其評價指標... 97
6.2 C4.5. 99
6.2.1 信息論基礎知識... 100
6.2.2 ID3算法... 102
6.2.3 C4.5算法... 104
6.2.4 C4.5算法的實現(xiàn)... 105
6.2.5 C4.5的軟件實現(xiàn)... 107
6.3 CART算法... 109
6.3.1 算法介紹... 109
6.3.2 算法描述... 112
6.4 K-Means算法... 113
6.4.1 基礎知識... 113
6.4.2 算法描述... 114
6.4.3 算法的軟件實現(xiàn)... 115
6.5 SVM算法... 116
6.5.1 線性可分SVM... 116
6.5.2 線性不可分SVM... 118
6.5.3 參數(shù)設置... 121
6.5.4 SVM算法的軟件實現(xiàn)... 123
6.6 Apriori算法... 125
6.6.1 基本概念... 125
6.6.2 Apriori算法... 126
6.6.3 Apriori算法示例... 129
6.6.4 Apriori算法的軟件實現(xiàn)... 131
6.7 EM算法... 131
6.7.1 算法描述
6.7.2 基于EM的混合高斯聚類... 133
6.7.3 算法的軟件實現(xiàn)... 134
6.8 PageRank. 135
6.8.1 PageRank算法發(fā)展背景... 135
6.8.2 PageRank算法描述... 135
6.8.3 PageRank算法發(fā)展... 138
6.9 Adaboost算法... 139
6.9.1 集成學習... 139
6.9.2 Adaboost算法描述... 140
6.9.3 Adaboost算法實驗... 141
6.10 KNN算法... 142
6.10.1 KNN算法描述... 142
6.10.2 KNN算法的軟件實現(xiàn)... 144
6.11 Naive Bayes. 144
6.11.1 基礎知識... 145
6.11.2 算法描述... 145
6.11.3 NaiveBayes軟件實現(xiàn)... 147
思考題... 148
第7章 數(shù)據(jù)挖掘工具與產(chǎn)品... 149
7.1 數(shù)據(jù)挖掘工具概述... 149
7.1.1 發(fā)展過程... 149
7.1.2 基本類型... 149
7.1.3 開發(fā)者與使用者... 150
7.2 商業(yè)數(shù)據(jù)挖掘工具IBM
SPSS Modeler 151
7.2.1 產(chǎn)品概述... 151
7.2.2 可視化數(shù)據(jù)挖掘... 153
7.2.3 SPSS Modeler技術說明... 156
7.2.4 SPSS Modeler的數(shù)據(jù)挖掘
應用... 157
7.3 開源數(shù)據(jù)挖掘工具WEKA.. 158
7.3.1 WEKA數(shù)據(jù)格式... 159
7.3.2 WEKA的使用... 160
思考題... 161
第8章 數(shù)據(jù)挖掘案例... 162
8.1 概述... 162
8.2 納稅評估示例... 162
8.2.1 納稅評估監(jiān)控等級預測
的方法... 163
8.2.2 構建稅務行業(yè)數(shù)據(jù)中心... 164
8.2.3 構建納稅評估監(jiān)控等級模型... 166
8.3 稅收預測建模示例... 168
8.4 稅務行業(yè)納稅人客戶細分探索... 171
8.4.1 客戶細分概述... 171
8.4.2 客戶細分的主要研究方法... 171
8.4.3 構建客戶細分模型... 171
8.5 基于Hadoop平臺的數(shù)據(jù)挖掘... 175
8.5.1 基于IBM SPSS Analytic Server的數(shù)據(jù)挖掘 175
8.5.2 基于R的數(shù)據(jù)挖掘... 175
思考題... 176
第9章 大數(shù)據(jù)管理... 177
9.1 什么是大數(shù)據(jù)... 177
9.2 Hadoop介紹... 178
9.3 NoSQL介紹... 180
9.3.1 CAP定理... 181
9.3.2 一致性... 181
9.3.3 ACID模型... 182
9.3.4 BASE模型... 182
9.3.5 MoreSQL/NewSQL.. 182
9.4 InfoSphere BigInsights 3.0介紹... 183
9.4.1 Big SQL 3.0. 184
9.4.2 企業(yè)集成... 190
9.4.3 GPFS-FPO.. 192
9.4.4 IBM Adaptive MR.. 192
9.4.5 BigSheets. 193
9.4.6 高級文本分析.... 195
9.4.7 Solr 195
9.4.8 改進工作負載調度... 196
9.4.9 壓縮... 197
思考題... 198
參考文獻