關(guān)于我們
書單推薦
新書推薦
|
數(shù)據(jù)挖掘原理、算法與應(yīng)用
本書系統(tǒng)介紹了數(shù)據(jù)挖掘原理、算法和應(yīng)用的相關(guān)知識(shí)。主要內(nèi)容包括:數(shù)據(jù)存儲(chǔ);數(shù)據(jù)與處理;數(shù)據(jù)相似度與異常檢測(cè);數(shù)據(jù)分類和預(yù)測(cè);數(shù)據(jù)聚類分析;數(shù)據(jù)關(guān)聯(lián)分析等。
隨著信息技術(shù)的普及和應(yīng)用,各個(gè)領(lǐng)域產(chǎn)生了大量的數(shù)據(jù),這些數(shù)據(jù)被獲取、存儲(chǔ)下來(lái),其中蘊(yùn)含著豐富的信息。人們持續(xù)不斷地探索處理這些數(shù)據(jù)的方法,以期最大程度地從中挖掘有用的信息,面對(duì)如潮水般不斷增加的數(shù)據(jù),人們不再滿足于數(shù)據(jù)的查詢和統(tǒng)計(jì)分析,而是期望從數(shù)據(jù)中提取信息或者知識(shí)為決策服務(wù)。數(shù)據(jù)挖掘技術(shù)突破了數(shù)據(jù)分析技術(shù)的種種局限,它結(jié)合統(tǒng)計(jì)學(xué)、數(shù)據(jù)庫(kù)、機(jī)器學(xué)習(xí)等技術(shù)解決從數(shù)據(jù)中發(fā)現(xiàn)新的信息,輔助決策這一難題,是正在飛速發(fā)展的前沿學(xué)科。一些大型企業(yè)對(duì)數(shù)據(jù)挖掘產(chǎn)品和工具的使用都超過(guò)20年,并已產(chǎn)生了期望的效應(yīng)。此外,數(shù)據(jù)挖掘產(chǎn)品和工具在金融、商業(yè)、電信、醫(yī)學(xué)等多個(gè)領(lǐng)域也得到廣泛推廣應(yīng)用。
數(shù)據(jù)挖掘并不是要取代其他數(shù)據(jù)分析技術(shù),而是將它們作為其工作的基矗盡管有些技術(shù)(如關(guān)聯(lián)分析)是數(shù)據(jù)挖掘獨(dú)有的,但是,另一些技術(shù)(如聚類、分類和異常檢測(cè))則建立在其他學(xué)科長(zhǎng)期研究的基礎(chǔ)之上。數(shù)據(jù)挖掘利用已有技術(shù)加速其發(fā)展,并一直與其他學(xué)科的技術(shù)緊密結(jié)合。成功地進(jìn)行數(shù)據(jù)挖掘是綜合使用多種技術(shù),以及理解數(shù)據(jù)的專業(yè)人員和數(shù)據(jù)分析人員合作的成果。 本書結(jié)合數(shù)據(jù)挖掘技術(shù)的最新發(fā)展,系統(tǒng)地介紹了數(shù)據(jù)挖掘的基礎(chǔ)理論、技術(shù)原理、算法和應(yīng)用,以使讀者對(duì)數(shù)據(jù)挖掘有一個(gè)系統(tǒng)、全面的了解。本書共9章,第1章主要介紹數(shù)據(jù)挖掘的基本概念和數(shù)據(jù)挖掘的過(guò)程。第2章主要介紹關(guān)系數(shù)據(jù)集和數(shù)據(jù)倉(cāng)庫(kù)等數(shù)據(jù)存儲(chǔ)方式的基本概念、數(shù)據(jù)組織及其涉及的關(guān)鍵技術(shù),以及分布式文件系統(tǒng)、NoSQL等大數(shù)據(jù)存儲(chǔ)方式的概念、結(jié)構(gòu)、原理和數(shù)據(jù)組織方法等。第3章主要介紹了數(shù)據(jù)預(yù)處理的概念和必要性,以及數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)歸約、數(shù)據(jù)離散化和特征選擇等數(shù)據(jù)預(yù)處理技術(shù)。第4章主要介紹了相似度度量的基礎(chǔ)知識(shí)和5種異常檢測(cè)方法,并深入分析歐式距離等6種傳統(tǒng)的度量方法和大數(shù)據(jù)度量方法。第5章主要介紹了數(shù)據(jù)分類和預(yù)測(cè)的基本概念,決策樹分類、貝葉斯分類、神經(jīng)網(wǎng)絡(luò)等分類方法,以及預(yù)測(cè)算法與應(yīng)用。第6章主要介紹了數(shù)據(jù)聚類分析的基本概念,以及基于劃分、基于層次、基于密度、基于網(wǎng)格和基于模型的聚類算法,還介紹了聚類分析的評(píng)估方法及其應(yīng)用。第7章主要介紹了關(guān)聯(lián)分析的基本概念,分析了關(guān)聯(lián)規(guī)則挖掘的兩個(gè)子任務(wù):頻繁項(xiàng)集產(chǎn)生和規(guī)則產(chǎn)生,介紹了頻繁項(xiàng)集的緊湊表示及產(chǎn)生頻繁項(xiàng)集的其他方法、FP-growth算法、關(guān)聯(lián)評(píng)估及其應(yīng)用等內(nèi)容。第8章主要針對(duì)數(shù)據(jù)挖掘模型的評(píng)價(jià)和度量介紹了評(píng)分函數(shù)(包括常用的預(yù)測(cè)性評(píng)分函數(shù)和描述性評(píng)分函數(shù));介紹了針對(duì)數(shù)據(jù)挖掘模型的成本評(píng)價(jià)曲線;從評(píng)價(jià)模型復(fù)雜度角度介紹了最短描述長(zhǎng)度原則等評(píng)價(jià)方法;針對(duì)模型有效性驗(yàn)證介紹了交叉驗(yàn)證和Bootstrap驗(yàn)證方法;從數(shù)據(jù)挖掘模型效率和準(zhǔn)確率提升角度,介紹了云計(jì)算和集成學(xué)習(xí)方法。第9章主要介紹了針對(duì)文本、圖像、語(yǔ)音識(shí)別、視頻、網(wǎng)絡(luò)拓?fù)洹⒕W(wǎng)絡(luò)輿情、推薦系統(tǒng)、空間數(shù)據(jù)和數(shù)據(jù)流等復(fù)雜數(shù)據(jù)的數(shù)據(jù)挖掘技術(shù),分析了各類復(fù)雜數(shù)據(jù)的特點(diǎn),介紹了相關(guān)數(shù)據(jù)挖掘的關(guān)鍵技術(shù)。本書涉及的內(nèi)容較為廣泛,在教學(xué)時(shí),可根據(jù)實(shí)際情況選擇。 本書由梁亞聲編寫第1、5章,徐欣編寫第8、9章,成小菊編寫第6、7章,梁佳領(lǐng)編寫第2、3章,朱霞編寫第4章。何成宇為第4章的編寫提供了部分資料。徐欣對(duì)全書進(jìn)行了統(tǒng)稿。 本書編著得到了國(guó)家自然科學(xué)基金(61402426)資助。 由于作者水平有限,書中難免存在不妥之處,敬請(qǐng)讀者批評(píng)指正。
出版說(shuō)明
前言 第1章 概述 1.1 從數(shù)據(jù)中獲取知識(shí) 1.2 數(shù)據(jù)挖掘的基本概念 1.3 數(shù)據(jù)挖掘的發(fā)展歷程 1.4 數(shù)據(jù)挖掘的功能和數(shù)據(jù)挖掘系統(tǒng)的分類 1.4.1 分類與回歸 1.4.2 聚類分析 1.4.3 關(guān)聯(lián)規(guī)則 1.4.4 時(shí)序模式 1.4.5 異常檢測(cè) 1.4.6 數(shù)據(jù)挖掘系統(tǒng)的分類 1.5 數(shù)據(jù)挖掘的過(guò)程 1.5.1 數(shù)據(jù)挖掘的一般流程 1.5.2 跨行業(yè)數(shù)據(jù)挖掘標(biāo)準(zhǔn)過(guò)程 1.6 數(shù)據(jù)挖掘與其他學(xué)科的關(guān)系 1.6.1 數(shù)據(jù)挖掘與數(shù)據(jù)庫(kù)知識(shí)發(fā)現(xiàn) 1.6.2 數(shù)據(jù)挖掘與數(shù)據(jù)庫(kù)查詢 1.6.3 數(shù)據(jù)挖掘與統(tǒng)計(jì)分析 1.6.4 數(shù)據(jù)挖掘與數(shù)據(jù)倉(cāng)庫(kù) 1.6.5 數(shù)據(jù)挖掘與聯(lián)機(jī)分析處理 1.6.6 數(shù)據(jù)挖掘與人工智能、專家系統(tǒng)、機(jī)器學(xué)習(xí) 1.7 數(shù)據(jù)挖掘的應(yīng)用和發(fā)展趨勢(shì) 1.7.1 商業(yè)的數(shù)據(jù)挖掘 1.7.2 金融業(yè)的數(shù)據(jù)挖掘 1.7.3 欺詐偵測(cè)中的數(shù)據(jù)挖掘 1.7.4 DNA數(shù)據(jù)分析中的數(shù)據(jù)挖掘 1.7.5 電信業(yè)中的數(shù)據(jù)挖掘 1.7.6 科學(xué)和統(tǒng)計(jì)數(shù)據(jù)挖掘 1.7.7 數(shù)據(jù)挖掘系統(tǒng)和軟件 1.7.8 數(shù)據(jù)挖掘的發(fā)展趨勢(shì) 1.8 小結(jié) 1.9 習(xí)題 第2章 數(shù)據(jù)存儲(chǔ) 2.1 關(guān)系數(shù)據(jù)集 2.2 數(shù)據(jù)倉(cāng)庫(kù) 2.2.1 數(shù)據(jù)倉(cāng)庫(kù)的概念和特點(diǎn) 2.2.2 數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)組織 2.2.3 數(shù)據(jù)倉(cāng)庫(kù)的關(guān)鍵技術(shù) 2.2.4 數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘的關(guān)系 2.3 NoSQL數(shù)據(jù)庫(kù) 2.3.1 NoSQL概念與理論 2.3.2 NoSQL數(shù)據(jù)模型 2.3.3 NoSQL與關(guān)系數(shù)據(jù)庫(kù) 2.4 分布式文件系統(tǒng) 2.4.1 分布式文件系統(tǒng)的歷史 2.4.2 分布式文件系統(tǒng)的體系結(jié)構(gòu) 2.4.3 谷歌文件系統(tǒng)(GoogleFS) 2.4.4 Hadoop分布式文件系統(tǒng)(HDFS) 2.5 小結(jié) 2.6 習(xí)題 第3章 數(shù)據(jù)預(yù)處理 3.1 數(shù)據(jù)預(yù)處理的必要性 3.2 數(shù)據(jù)清理 3.2.1 缺失數(shù)據(jù)處理方法 3.2.2 噪聲數(shù)據(jù)平滑技術(shù) 3.2.3 時(shí)間相關(guān)數(shù)據(jù)的處理 3.3 數(shù)據(jù)集成 3.3.1 實(shí)體識(shí)別與匹配 3.3.2 冗余和相關(guān)分析 3.3.3 元組重復(fù)數(shù)據(jù)的檢測(cè) 3.3.4 沖突數(shù)據(jù)的檢測(cè)與處理 3.4 數(shù)據(jù)轉(zhuǎn)換 3.4.1 數(shù)據(jù)標(biāo)準(zhǔn)化 3.4.2 數(shù)據(jù)泛化 3.5 數(shù)據(jù)歸約 3.5.1 數(shù)據(jù)立方體聚集 3.5.2 維度歸約 3.5.3 數(shù)據(jù)壓縮 3.5.4 數(shù)值歸約 3.6 數(shù)據(jù)離散化 3.6.1 分箱方法 3.6.2 直方圖分析 3.6.3 基于熵的離散化 3.6.4 ChiMerge技術(shù) 3.6.5 人工劃分分段 3.7 特征提取、選擇和構(gòu)造 3.7.1 特征提取 3.7.2 特征選擇 3.7.3 特征構(gòu)造 3.8 小結(jié) 3.9 習(xí)題 第4章 數(shù)據(jù)相似度與異常檢測(cè) 4.1 相似度度量 4.1.1 對(duì)象與屬性類型 4.1.2 相似度度量的定義 4.1.3 由距離度量變換而來(lái)的相似度度量 4.1.4 屬性之間的相似度度量 4.1.5 對(duì)象之間的相似度度量 4.2 傳統(tǒng)度量方法 4.2.1 二值屬性的相似度度量 4.2.2 歐氏距離 4.2.3 余弦距離 4.2.4 Mahalanobis距離 4.2.5 Jaccard距離 4.2.6 海明距離 4.3 大數(shù)據(jù)度量方法 4.3.1 文檔的Shingling 4.3.2 局部敏感散列算法 4.4 異常檢測(cè) 4.4.1 基于統(tǒng)計(jì)的檢測(cè)方法 4.4.2 基于距離的檢測(cè)方法 4.4.3 基于密度的檢測(cè)方法 4.4.4 基于聚類的檢測(cè)方法 4.4.5 基于分類的檢測(cè)方法 4.4.6 高維數(shù)據(jù)中的異常點(diǎn)檢測(cè) 4.5 小結(jié) 4.6 習(xí)題 第5章 數(shù)據(jù)分類和預(yù)測(cè) 5.1 分類和預(yù)測(cè)的基本概念 5.1.1 準(zhǔn)備數(shù)據(jù) 5.1.2 分類和預(yù)測(cè)方法的評(píng)估標(biāo)準(zhǔn) 5.2 決策樹分類 5.2.1 ID3算法生成決策樹 5.2.2 C4.5 算法生成決策樹 5.2.3 CART算法和Gini指標(biāo) 5.2.4 決策樹歸納的可擴(kuò)展性 5.2.5 數(shù)據(jù)倉(cāng)庫(kù)與決策樹 5.2.6 決策樹和決策規(guī)則的局限性 5.3 貝葉斯分類 5.3.1 貝葉斯定理 5.3.2 樸素貝葉斯分類 5.3.3 貝葉斯信念網(wǎng)絡(luò) 5.3.4 訓(xùn)練貝葉斯信念網(wǎng)絡(luò) 5.4 神經(jīng)網(wǎng)絡(luò) 5.4.1 多層前饋神經(jīng)網(wǎng)絡(luò) 5.4.2 定義神經(jīng)網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu) 5.4.3 后向傳播 5.4.4 后向傳播和可理解性 5.5 其他分類方法 5.5.1 基于關(guān)聯(lián)的分類方法 5.5.2 K-最近鄰分類 5.5.3 基于案例推理 5.5.4 遺傳算法 5.5.5 粗糙集方法 5.5.6 模糊集合方法 5.6 預(yù)測(cè)算法 5.6.1 預(yù)測(cè)算法分類 5.6.2 預(yù)測(cè)算法選擇 5.6.3 線性和多元回歸 5.6.4 非線性回歸 5.6.5 其他回歸模型 5.7 分類預(yù)測(cè)應(yīng)用實(shí)例 5.7.1 樣本選取 5.7.2 建立預(yù)測(cè)模型 5.7.3 模型評(píng)估 5.7.4 實(shí)用價(jià)值 5.8 小結(jié) 5.9 習(xí)題 第6章 數(shù)據(jù)聚類分析 6.1 基本概念 6.1.1 對(duì)聚類分析的要求 6.1.2 聚類分析方法分類 6.2 劃分聚類算法 6.2.1 K-means算法(基于質(zhì)心的技術(shù)) 6.2.2 K-medoids算法(基于代表對(duì)象的技術(shù)) 6.3 層次聚類算法 6.3.1 BIRCH算法 6.3.2 CURE算法 6.3.3 ROCK算法 6.3.4 Chameleon算法 6.4 基于密度的聚類算法 6.4.1 DBSCAN算法 6.4.2 OPTICS算法 6.4.3 DENCLUE算法 6.5 基于網(wǎng)格的聚類算法 6.5.1 STING算法 6.5.2 WaveCluster算法 6.5.3 CLIQUE算法 6.6 基于模型的聚類算法 6.6.1 EM算法 6.6.2 COBWEB算法 6.6.3 SOM算法 6.7 聚類評(píng)估 6.7.1 估計(jì)聚類趨勢(shì) 6.7.2 確定簇?cái)?shù) 6.7.3 測(cè)定聚類質(zhì)量 6.8 聚類分析應(yīng)用實(shí)例 6.8.1 問(wèn)題理解與提出 6.8.2 數(shù)據(jù)收集與選擇 6.8.3 數(shù)據(jù)預(yù)處理 6.8.4 應(yīng)用K-means聚類算法建模 6.9 小結(jié) 6.10 習(xí)題 第7章 數(shù)據(jù)關(guān)聯(lián)分析 7.1 數(shù)據(jù)關(guān)聯(lián)分析的基本概念 7.2 頻繁項(xiàng)集產(chǎn)生 7.2.1 先驗(yàn)原理 7.2.2 Apriori算法的頻繁項(xiàng)集產(chǎn)生 7.2.3 支持度計(jì)數(shù) 7.2.4 計(jì)算復(fù)雜度 7.3 規(guī)則產(chǎn)生 7.3.1 基本步驟 7.3.2 Apriori算法中規(guī)則的產(chǎn)生 7.4 頻繁項(xiàng)集的緊湊表示 7.4.1 最大頻繁項(xiàng)集 7.4.2 閉頻繁項(xiàng)集 7.5 產(chǎn)生頻繁項(xiàng)集的其他方法 7.5.1 項(xiàng)集格遍歷 7.5.2 事務(wù)數(shù)據(jù)集的表示 7.6 FP-Growth算法 7.6.1 FP樹構(gòu)造 7.6.2 頻繁項(xiàng)集產(chǎn)生 7.7 關(guān)聯(lián)評(píng)估 7.7.1 興趣度客觀度量 7.7.2 多個(gè)二元變量的度量 7.7.3 傾斜支持度分布的影響 7.8 關(guān)聯(lián)分析應(yīng)用實(shí)例 7.8.1 關(guān)聯(lián)分析學(xué)生成績(jī) 7.8.2 數(shù)據(jù)處理 7.8.3 算法的應(yīng)用 7.8.4 挖掘結(jié)果的分析 7.9 小結(jié) 7.10 習(xí)題 第8章 性能評(píng)估和提升 8.1 評(píng)分函數(shù) 8.1.1 預(yù)測(cè)性評(píng)分函數(shù) 8.1.2 描述性評(píng)分函數(shù) 8.1.3 一致性評(píng)價(jià) 8.2 成本評(píng)價(jià) 8.2.1 成本評(píng)價(jià)曲線 8.2.2 Cost-Sensitive學(xué)習(xí) 8.3 復(fù)雜度評(píng)估 8.4 驗(yàn)證 8.4.1 交叉驗(yàn)證 8.4.2 Bootstrap 8.4.3 模型比較 8.5 性能提升 8.5.1 效率提升 8.5.2 準(zhǔn)確率提升 8.6 小結(jié) 8.7 習(xí)題 第9章 復(fù)雜數(shù)據(jù)挖掘 9.1 文本數(shù)據(jù)挖掘 9.1.1 文本數(shù)據(jù)預(yù)處理 9.1.2 文本數(shù)據(jù)挖掘技術(shù) 9.1.3 文本數(shù)據(jù)挖掘的應(yīng)用 9.2 圖像數(shù)據(jù)挖掘 9.2.1 圖像數(shù)據(jù)的特點(diǎn)和挖掘技術(shù)現(xiàn)狀 9.2.2 圖像數(shù)據(jù)預(yù)處理 9.2.3 圖像數(shù)據(jù)挖掘技術(shù) 9.2.4 圖像數(shù)據(jù)挖掘的應(yīng)用 9.3 語(yǔ)音識(shí)別挖掘 9.3.1 語(yǔ)音數(shù)據(jù)特點(diǎn)及挖掘技術(shù)現(xiàn)狀 9.3.2 語(yǔ)音信號(hào)預(yù)處理 9.3.3 語(yǔ)音識(shí)別技術(shù) 9.3.4 語(yǔ)音識(shí)別技術(shù)的應(yīng)用 9.4 視頻數(shù)據(jù)挖掘 9.4.1 視頻數(shù)據(jù)特點(diǎn)及挖掘技術(shù)現(xiàn)狀 9.4.2 視頻數(shù)據(jù)預(yù)處理 9.4.3 視頻數(shù)據(jù)挖掘技術(shù) 9.4.4 視頻數(shù)據(jù)挖掘的應(yīng)用 9.5 網(wǎng)絡(luò)拓?fù)渫诰?br /> 9.5.1 拓?fù)浒l(fā)現(xiàn)的技術(shù)現(xiàn)狀及網(wǎng)絡(luò)數(shù)據(jù)的采集 9.5.2 基于挖掘技術(shù)的網(wǎng)絡(luò)拓?fù)浒l(fā)現(xiàn) 9.6 網(wǎng)絡(luò)輿情挖掘 9.6.1 輿情研究發(fā)展現(xiàn)狀及輿情特點(diǎn) 9.6.2 網(wǎng)絡(luò)輿情數(shù)據(jù)預(yù)處理 9.6.3 網(wǎng)絡(luò)輿情挖掘技術(shù) 9.7 推薦系統(tǒng) 9.7.1 推薦系統(tǒng)發(fā)展現(xiàn)狀 9.7.2 相關(guān)技術(shù) 9.7.3 推薦系統(tǒng) 9.8 空間數(shù)據(jù)挖掘 9.8.1 空間數(shù)據(jù)的特點(diǎn) 9.8.2 空間數(shù)據(jù)預(yù)處理 9.8.3 空間數(shù)據(jù)挖掘技術(shù) 9.8.4 空間數(shù)據(jù)挖掘工具 9.9 數(shù)據(jù)流挖掘 9.9.1 數(shù)據(jù)流的特點(diǎn) 9.9.2 數(shù)據(jù)流預(yù)處理 9.9.3 數(shù)據(jù)流挖掘技術(shù) 9.9.4 數(shù)據(jù)流挖掘技術(shù)的應(yīng)用 9.10 小結(jié) 9.11 習(xí)題 參考文獻(xiàn)
你還可能感興趣
我要評(píng)論
|