本書為數(shù)據(jù)挖掘入門級教材,共分8章,主要內(nèi)容分為三個專題:技術(shù)、數(shù)據(jù)和評估。技術(shù)專題包括決策樹技術(shù)、K-means算法、關(guān)聯(lián)分析技術(shù)、神經(jīng)網(wǎng)絡(luò)技術(shù)、回歸分析技術(shù)、貝葉斯分析、凝聚聚類、概念分層聚類、混合模型聚類技術(shù)的EM算法、時間序列分析和基于Web的數(shù)據(jù)挖掘等常用的機器學(xué)習(xí)方法和統(tǒng)計技術(shù)。數(shù)據(jù)專題包括數(shù)據(jù)庫中的知識發(fā)現(xiàn)處理模型和數(shù)據(jù)倉庫及OLAP技術(shù)。評估專題包括利用檢驗集分類正確率和混淆矩陣,并結(jié)合檢驗集置信區(qū)間評估有指導(dǎo)學(xué)習(xí)模型,使用無指導(dǎo)聚類技術(shù)評估有指導(dǎo)模型,利用Lift和假設(shè)檢驗比較兩個有指導(dǎo)學(xué)習(xí)模型,使用MS Excel 2010和經(jīng)典的假設(shè)檢驗?zāi)P驮u估屬性,使用簇質(zhì)量度量方法和有指導(dǎo)學(xué)習(xí)技術(shù)評估無指導(dǎo)聚類模型。
本書秉承教材風(fēng)格,強調(diào)廣度講解。注重成熟模型和開源工具的使用,以提高學(xué)習(xí)者的應(yīng)用能力為目標;注重結(jié)合實例和實驗,加強基本概念和原理的理解和運用;注重實例的趣味性和生活性,提高學(xué)習(xí)者學(xué)習(xí)的積極性。使用章后練習(xí)、計算和實驗作業(yè)鞏固和檢驗所學(xué)內(nèi)容;使用詞匯表附錄,解釋和規(guī)范數(shù)據(jù)挖掘?qū)W科專業(yè)術(shù)語;使用適合教學(xué)的簡單易用開源的Weka和通用的MS Excel軟件工具實施數(shù)據(jù)挖掘驗證和體驗數(shù)據(jù)挖掘的精妙。
本書可作為普通高等院校計算機科學(xué)、信息科學(xué)、數(shù)學(xué)和統(tǒng)計學(xué)專業(yè)的入門教材,也可作為如經(jīng)濟學(xué)、管理學(xué)、檔案學(xué)等對數(shù)據(jù)管理、數(shù)據(jù)分析與數(shù)據(jù)挖掘有教學(xué)需求的其他相關(guān)專業(yè)的基礎(chǔ)教材。同時,對數(shù)據(jù)挖掘技術(shù)和方法感興趣,致力于相關(guān)方面的研究和應(yīng)用的其他讀者,也可以從本書中獲取基本的指導(dǎo)和體驗。
本書配有教學(xué)幻燈片、大部分章后習(xí)題和實驗的參考答案以及課程大綱。
未來學(xué)家約翰·奈斯比特(John Naisbitt)驚呼:“人類正被數(shù)據(jù)淹沒,卻饑渴于信息!睆暮棋珶o際的數(shù)據(jù)海洋中發(fā)現(xiàn)潛在的、有價值的信息,是這個大數(shù)據(jù)時代的一個標志性工作。
數(shù)據(jù)挖掘(Data Mining)是利用一種或多種計算機學(xué)習(xí)技術(shù),從數(shù)據(jù)中自動分析并提取信息的處理過程,其目的是發(fā)現(xiàn)數(shù)據(jù)中潛在的和有價值的信息、知識、規(guī)律、聯(lián)系、模式,從而為解釋當前行為和預(yù)測未來結(jié)果提供支持。數(shù)據(jù)挖掘一般使用機器學(xué)習(xí)、統(tǒng)計學(xué)、聯(lián)機分析處理、專家系統(tǒng)和模式識別等多種方法來實現(xiàn),是一門交叉學(xué)科,涉及數(shù)據(jù)庫技術(shù)、人工智能技術(shù)、統(tǒng)計學(xué)方法、可視化技術(shù)、并行計算等。數(shù)據(jù)挖掘是一種商業(yè)智能信息處理技術(shù),其圍繞商業(yè)目標,對大量商業(yè)數(shù)據(jù)進行抽取、轉(zhuǎn)換、分析和處理,從中提取輔助商業(yè)決策的關(guān)鍵性數(shù)據(jù),揭示隱藏的、未知的或驗證已知的規(guī)律性,是一種深層次的商業(yè)數(shù)據(jù)分析方法。
本書作為一本數(shù)據(jù)挖掘的入門級教材,關(guān)注于數(shù)據(jù)挖掘的基本概念、基本原理和基本技術(shù)的介紹和實踐應(yīng)用。全書圍繞知識發(fā)現(xiàn)過程中的數(shù)據(jù)專題、技術(shù)專題和評估專題展開,包含大量實例和實驗。實驗采用Weka開源數(shù)據(jù)挖掘工具和MS Excel 2010,兩者作為教學(xué)軟件,具有很好的通用性和易學(xué)易用性。本書最后附有詞匯表和數(shù)據(jù)挖掘數(shù)據(jù)集,包括了書中涉及的數(shù)據(jù)挖掘的最基本詞匯、例子及實驗所用數(shù)據(jù)集。其中數(shù)據(jù)集有來自UCI的共享數(shù)據(jù)集,也有為了舉例和實驗而設(shè)計的假想數(shù)據(jù)集。
本書分為8章和兩個附錄,其中戴紅編寫了8章中的大部分內(nèi)容,常子冠和于寧編寫了附錄A和附錄B,以及前8章的部分內(nèi)容。
本書目標
本書希望幫助讀者達到以下學(xué)習(xí)目標。
了解數(shù)據(jù)挖掘的技術(shù)定義和商業(yè)定義、作用和應(yīng)用領(lǐng)域。
了解數(shù)據(jù)挖掘與知識發(fā)現(xiàn)、數(shù)據(jù)查詢、專家系統(tǒng)的關(guān)系。
掌握數(shù)據(jù)挖掘和知識發(fā)現(xiàn)的處理過程。
掌握數(shù)據(jù)挖掘的基本技術(shù)和方法,包括有指導(dǎo)的學(xué)習(xí)技術(shù)——決策樹技術(shù)、產(chǎn)生式規(guī)則、神經(jīng)網(wǎng)絡(luò)技術(shù)和統(tǒng)計分析方法,以及無指導(dǎo)聚類技術(shù)和關(guān)聯(lián)分析方法。
掌握數(shù)據(jù)挖掘的評估技術(shù),包括數(shù)據(jù)評估和模型評估方法。
了解數(shù)據(jù)倉庫的設(shè)計目標和結(jié)構(gòu)。
了解聯(lián)機分析處理(OLAP)的目標和數(shù)據(jù)分析方法。
掌握時間序列分析方法,了解基于Web的數(shù)據(jù)挖掘目標、方法和技術(shù)。
能夠使用Weka軟件工具,應(yīng)用各種數(shù)據(jù)挖掘算法,建立分類和聚類模型并進行關(guān)聯(lián)分析,嘗試解決實際問題。
能夠使用MS Excel進行數(shù)據(jù)相關(guān)性分析,建立回歸模型,以及使用Excel的數(shù)據(jù)透視表和數(shù)據(jù)透視圖進行OLAP分析。
本書讀者
本書既可作為計算機科學(xué)、信息科學(xué)、數(shù)學(xué)和統(tǒng)計學(xué)專業(yè)的入門教材,也可作為如經(jīng)濟學(xué)、管理學(xué)、檔案學(xué)等,對數(shù)據(jù)管理、數(shù)據(jù)分析與數(shù)據(jù)挖掘有教學(xué)需求的其他相關(guān)專業(yè)的基礎(chǔ)教材。同時,對數(shù)據(jù)挖掘技術(shù)和方法感興趣,致力于相關(guān)方面的研究和應(yīng)用的其他讀者,也可以從本書中獲取基本的指導(dǎo)和體驗。
本書特點
本書強調(diào)基本概念、基本原理、基本技術(shù)的廣度講解。注重成熟模型和開源工具的介紹和使用;注重對數(shù)據(jù)挖掘經(jīng)典算法過程的可理解性描述,而非聚焦細節(jié)的剖析,以提高授課學(xué)生的應(yīng)用能力;注重結(jié)合基礎(chǔ)實用案例,通過案例加強基本概念和原理的理解和運用;同時注重提高實例的趣味性和生活性,以提高學(xué)生的學(xué)習(xí)積極性。
本書秉承教材風(fēng)格,使用實例和實驗來描述和驗證概念、原理和技術(shù);使用章后練習(xí)、計算和實驗作業(yè)鞏固和檢驗所學(xué)內(nèi)容;使用詞匯表附錄,解釋和規(guī)范數(shù)據(jù)挖掘?qū)W科專業(yè)術(shù)語;使用適合教學(xué)的簡單易用開源的Weka和通用的MS Excel軟件工具實施數(shù)據(jù)挖掘,驗證和體驗數(shù)據(jù)挖掘的精妙。
本書內(nèi)容
第1章 認識數(shù)據(jù)挖掘。主要是對數(shù)據(jù)挖掘作全面的概述,包括數(shù)據(jù)挖掘的基本概念、作用、過程、方法、技術(shù)和應(yīng)用。同時介紹了本書使用的開源數(shù)據(jù)挖掘軟件Weka。
從第2章到第8章,可分為三個專題:技術(shù)專題、數(shù)據(jù)專題和評估專題。
技術(shù)專題
第2章 基本數(shù)據(jù)挖掘技術(shù)。介紹有指導(dǎo)學(xué)習(xí)技術(shù)中的決策樹算法、無指導(dǎo)聚類和K-means算法,重點討論生成關(guān)聯(lián)規(guī)則技術(shù)和針對不同問題如何考慮選擇不同的數(shù)據(jù)挖掘技術(shù)和算法。第6章 神經(jīng)網(wǎng)絡(luò)技術(shù)。介紹神經(jīng)網(wǎng)絡(luò)的基本概念、結(jié)構(gòu)模型、反向傳播學(xué)習(xí)、自組織學(xué)習(xí)方法和神經(jīng)網(wǎng)絡(luò)技術(shù)的優(yōu)勢和缺點,討論神經(jīng)網(wǎng)絡(luò)的輸入和輸出數(shù)據(jù)的要求,詳細描述反向傳播學(xué)習(xí)算法和自組織學(xué)習(xí)方法的一次迭代過程,并通過兩個實驗,介紹了使用Weka軟件實現(xiàn)BP前饋神經(jīng)網(wǎng)絡(luò)模型的過程。第7章 統(tǒng)計技術(shù)。介紹數(shù)據(jù)挖掘中幾種常用的統(tǒng)計技術(shù),包括線性回歸、非線性回歸和樹回歸,貝葉斯分類器,聚類技術(shù)中的凝聚聚類、概念分層聚類和混合模型聚類技術(shù)的EM算法,對比了統(tǒng)計技術(shù)和機器學(xué)習(xí)方法的不同之處,為針對不同的問題和數(shù)據(jù)情況選擇不同的數(shù)據(jù)挖掘技術(shù)提供參考。第8章 時間序列分析和基于Web的挖掘。介紹如何使用神經(jīng)網(wǎng)絡(luò)技術(shù)和線性回歸方法建立預(yù)測模型,解決時間序列預(yù)測問題,使用數(shù)據(jù)挖掘?qū)eb站點進行自動化評估和提供個性化服務(wù),并就Web站點的自適應(yīng)調(diào)整和改善進行了簡單闡述,同時針對多模型應(yīng)用中的兩種著名方法裝袋和推進進行了簡單介紹。
數(shù)據(jù)專題
第3章 數(shù)據(jù)庫中的知識發(fā)現(xiàn)。介紹了知識發(fā)現(xiàn)的基本概念、基本過程和典型模型,重點剖析知識發(fā)現(xiàn)過程中的每個步驟的任務(wù)和方法,并通過一個案例說明知識發(fā)現(xiàn)的整個過程。第4章 數(shù)據(jù)倉庫。概括性地闡述了數(shù)據(jù)庫和數(shù)據(jù)倉庫的基本概念和特點,介紹了數(shù)據(jù)倉庫模型的設(shè)計,重點討論最常用的星型模型、雪花模型和星座模型的設(shè)計,并解釋了數(shù)據(jù)集市和決策支持系統(tǒng)的基本概念。通過一個實驗,描述了從決策支持的角度,對數(shù)據(jù)倉庫中的數(shù)據(jù)進行多維分析的方法。最后介紹了利用MS Excel數(shù)據(jù)透視表和數(shù)據(jù)透視圖建立多維數(shù)據(jù)分析模型的方法。
評估專題
第5章 評估技術(shù)。概述了數(shù)據(jù)挖掘過程中評估的內(nèi)容和工具,介紹了具有分類輸出的有指導(dǎo)學(xué)習(xí)模型的最基本評估工具——檢驗集分類正確率和混淆矩陣、數(shù)值型輸出模型的評估、檢驗置信區(qū)間的計算以及無指導(dǎo)聚類技術(shù)對于有指導(dǎo)學(xué)習(xí)模型的評估作用、有指導(dǎo)學(xué)習(xí)模型的比較方法,重點討論了利用Lift和假設(shè)檢驗對兩個有指導(dǎo)學(xué)習(xí)模型的性能進行比較。同時,討論了屬性評估,使用MS Excel的函數(shù)和散點圖進行屬性相關(guān)性分析,以及在屬性選擇中,如何通過應(yīng)用經(jīng)典的假設(shè)檢驗?zāi)P蛠泶_定數(shù)值屬性的重要性。本章最后給出了兩種無指導(dǎo)聚類模型的評估方法。
附錄 本書有兩個附錄:附錄A為詞匯表,包含了各章以及Weka軟件中出現(xiàn)的主要詞匯和關(guān)鍵術(shù)語;附錄B為本書各章實例、實驗、章后習(xí)題中涉及的數(shù)據(jù)集的相關(guān)描述,有來自UCI的網(wǎng)絡(luò)共享數(shù)據(jù)集,也有假想的數(shù)據(jù)集。
第1章 認識數(shù)據(jù)挖掘 1
1.1 數(shù)據(jù)挖掘的定義 1
1.2 機器學(xué)習(xí) 2
1.2.1 概念學(xué)習(xí) 2
1.2.2 歸納學(xué)習(xí) 3
1.2.3 有指導(dǎo)的學(xué)習(xí) 4
1.2.4 無指導(dǎo)的聚類 7
1.3 數(shù)據(jù)查詢 8
1.4 專家系統(tǒng) 8
1.5 數(shù)據(jù)挖掘的過程 9
1.5.1 準備數(shù)據(jù) 10
1.5.2 挖掘數(shù)據(jù) 10
1.5.3 解釋和評估數(shù)據(jù) 10
1.5.4 模型應(yīng)用 11
1.6 數(shù)據(jù)挖掘的作用 11
1.6.1 分類 11
1.6.2 估計 12
1.6.3 預(yù)測 12
1.6.4 無指導(dǎo)聚類 12
1.6.5 關(guān)聯(lián)關(guān)系分析 13
1.7 數(shù)據(jù)挖掘技術(shù) 13
1.7.1 神經(jīng)網(wǎng)絡(luò) 14
1.7.2 回歸分析 14
1.7.3 關(guān)聯(lián)分析 15
1.7.4 聚類技術(shù) 16
1.8 數(shù)據(jù)挖掘的應(yīng)用 16
1.8.1 應(yīng)用領(lǐng)域 16
1.8.2 成功案例 18
1.9 Weka數(shù)據(jù)挖掘軟件 19
1.9.1 Weka簡介 19
1.9.2 使用Weka建立決策樹模型 22
1.9.3 使用Weka進行聚類 25
1.9.4 使用Weka進行關(guān)聯(lián)分析 26
本章小結(jié) 27
習(xí)題 28
第2章 基本數(shù)據(jù)挖掘技術(shù) 30
2.1 決策樹 30
2.1.1 決策樹算法的一般過程 31
2.1.2 決策樹算法的關(guān)鍵技術(shù) 32
2.1.3 決策樹規(guī)則 40
2.1.4 其他決策樹算法 41
2.1.5 決策樹小結(jié) 41
2.2 關(guān)聯(lián)規(guī)則 42
2.2.1 關(guān)聯(lián)規(guī)則概述 42
2.2.2 關(guān)聯(lián)分析 43
2.2.3 關(guān)聯(lián)規(guī)則小結(jié) 46
2.3 聚類分析技術(shù) 47
2.3.1 K-means算法 48
2.3.2 K-means算法小結(jié) 51
2.4 數(shù)據(jù)挖掘技術(shù)的選擇 51
本章小結(jié) 52
習(xí)題 53
第3章 數(shù)據(jù)庫中的知識發(fā)現(xiàn) 55
3.1 知識發(fā)現(xiàn)的基本過程 55
3.1.1 KDD過程模型 55
3.1.2 知識發(fā)現(xiàn)軟件 57
3.1.3 KDD過程的參與者 58
3.2 KDD過程模型的應(yīng)用 58
3.2.1 步驟1:商業(yè)理解 58
3.2.2 步驟2:數(shù)據(jù)理解 59
3.2.3 步驟3:數(shù)據(jù)準備 60
3.2.4 步驟4:建模 65
3.2.5 評估 66
3.2.6 部署和采取行動 66
3.3 實驗:KDD案例 66
本章小結(jié) 72
習(xí)題 73
第4章 數(shù)據(jù)倉庫 74
4.1 數(shù)據(jù)庫與數(shù)據(jù)倉庫 74
4.1.1 數(shù)據(jù)(庫)模型 75
4.1.2 規(guī)范化與反向規(guī)范化 77
4.2 設(shè)計數(shù)據(jù)倉庫 79
4.2.1 數(shù)據(jù)抽取、清洗、變換和加載 79
4.2.2 數(shù)據(jù)倉庫模型 82
4.2.3 數(shù)據(jù)集市 85
4.2.4 決策支持系統(tǒng) 86
4.3 聯(lián)機分析處理 87
4.3.1 概述 87
4.3.2 實驗:使用OLAP輔助駕駛員行為分析 90
4.4 使用Excel數(shù)據(jù)透視表和數(shù)據(jù)透視圖分析數(shù)據(jù) 93
4.4.1 創(chuàng)建簡單數(shù)據(jù)透視表和透視圖 93
4.4.2 創(chuàng)建多維透視表和透視圖 97
本章小結(jié) 100
習(xí)題 100
第5章 評估技術(shù) 102
5.1 數(shù)據(jù)挖掘評估概述 102
5.1.1 評估內(nèi)容 102
5.1.2 評估工具 103
5.2 評估有指導(dǎo)學(xué)習(xí)模型 108
5.2.1 評估分類類型輸出模型 108
5.2.2 評估數(shù)值型輸出模型 109
5.2.3 計算檢驗集置信區(qū)間 111
5.2.4 無指導(dǎo)聚類技術(shù)的評估作用 112
5.3 比較有指導(dǎo)學(xué)習(xí)模型 112
5.3.1 使用Lift比較模型 112
5.3.2 通過假設(shè)檢驗比較模型 114
5.4 屬性評估 115
5.4.1 數(shù)值型屬性的冗余檢查 115
5.4.2 數(shù)值屬性顯著性的假設(shè)檢驗 117
5.5 評估無指導(dǎo)聚類模型 118
本章小結(jié) 118
習(xí)題 119
第6章 神經(jīng)網(wǎng)絡(luò)技術(shù) 120
6.1 神經(jīng)網(wǎng)絡(luò)概述 120
6.1.1 神經(jīng)網(wǎng)絡(luò)模型 120
6.1.2 神經(jīng)網(wǎng)絡(luò)的輸入和輸出數(shù)據(jù)格式 121
6.1.3 激勵函數(shù) 123
6.2 神經(jīng)網(wǎng)絡(luò)訓(xùn)練 124
6.2.1 反向傳播學(xué)習(xí) 124
6.2.2 自組織映射的無指導(dǎo)聚類 127
6.2.3 實驗:應(yīng)用BP算法建立前饋神經(jīng)網(wǎng)絡(luò) 130
6.3 神經(jīng)網(wǎng)絡(luò)模型的優(yōu)勢和缺點 138
本章小結(jié) 138
習(xí)題 139
第7章 統(tǒng)計技術(shù) 141
7.1 回歸分析 141
7.1.1 線性回歸分析 142
7.1.2 非線性回歸 149
7.1.3 樹回歸 151
7.2 貝葉斯分析 152
7.3 聚類技術(shù) 156
7.3.1 分層聚類 156
7.3.2 基于模型的聚類 163
7.4 數(shù)據(jù)挖掘中的統(tǒng)計技術(shù)與機器學(xué)習(xí)技術(shù) 165
本章小結(jié) 165
習(xí)題 167
第8章 時間序列和基于Web的數(shù)據(jù)挖掘 169
8.1 時間序列分析 169
8.1.1 概述 169
8.1.2 線性回歸分析解決時間序列問題 173
8.1.3 神經(jīng)網(wǎng)絡(luò)技術(shù)解決時間序列問題 175
8.2 基于Web的數(shù)據(jù)挖掘 176
8.2.1 概述 176
8.2.2 Web文本挖掘 178
8.2.3 Web使用挖掘 179
8.3 多模型分類技術(shù) 185
8.3.1 裝袋技術(shù) 185
8.3.2 推進技術(shù) 185
本章小結(jié) 186
習(xí)題 187
附錄A 詞匯表 188
附錄B 數(shù)據(jù)挖掘數(shù)據(jù)集 201
參考文獻