本書介紹數(shù)據(jù)挖掘、統(tǒng)計(jì)學(xué)習(xí)和模式識別中與大數(shù)據(jù)分析相關(guān)的理論、方法及工具。理論學(xué)習(xí)的目標(biāo)是使學(xué)生掌握復(fù)雜數(shù)據(jù)的分析與建模;方法學(xué)習(xí)的目標(biāo)是使學(xué)生能夠按照實(shí)證研究的規(guī)范和數(shù)據(jù)挖掘的步驟進(jìn)行大數(shù)據(jù)研發(fā),工具學(xué)習(xí)的目標(biāo)是使學(xué)生熟練掌握一種數(shù)據(jù)分析的語言。本書內(nèi)容由10章構(gòu)成:大數(shù)據(jù)分析概述,數(shù)據(jù)挖掘流程,有指導(dǎo)的學(xué)習(xí),無指導(dǎo)的學(xué)習(xí),貝葉斯分類和因果學(xué)習(xí),高維回歸及變量選擇,圖模型,客戶關(guān)系管理、社會網(wǎng)絡(luò)分析、自然語言模型和文本挖掘。
本書可用做統(tǒng)計(jì)學(xué)、管理學(xué)、計(jì)算機(jī)科學(xué)等專業(yè)進(jìn)行數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、人工智能等相關(guān)課程的本科高年級、研究生教材或教學(xué)參考書。
信息技術(shù)推動了大眾對數(shù)據(jù)的消費(fèi),大眾對數(shù)據(jù)的消費(fèi)熱點(diǎn)經(jīng)歷了一個明晰的軌跡, 20 世紀(jì) 80年代是數(shù)學(xué)熱,數(shù)字產(chǎn)生于數(shù)學(xué)模型,但數(shù)學(xué)模型對帶有觀測誤差數(shù)據(jù)的解讀能力有限,20世紀(jì) 90年代是信息熱,信息為數(shù)字披上了外衣,然而技術(shù)的計(jì)算代價、適應(yīng)能力和容錯能力等還缺乏一個統(tǒng)一的分析標(biāo)準(zhǔn)。結(jié)果從 20 世紀(jì) 90年代開始,統(tǒng)計(jì)開始成為大眾消費(fèi)數(shù)據(jù)的熱點(diǎn),這一消費(fèi)的轉(zhuǎn)變也將一度默默無聞、與世無爭的統(tǒng)計(jì)學(xué)家從象牙塔帶到真實(shí)世界,開始參與到從數(shù)據(jù)特點(diǎn)出發(fā)構(gòu)建面向不同問題的統(tǒng)計(jì)模型的實(shí)踐中來。在當(dāng)今這個網(wǎng)絡(luò)密布、數(shù)據(jù)激增的時代,統(tǒng)計(jì)建模為大數(shù)據(jù)分析提供了一套可擴(kuò)展、可深化,并能高質(zhì)高效地揭示有價值信息的方法,使透過微觀數(shù)據(jù)視角洞察在“無尺度網(wǎng)絡(luò)”中游走的人類行為成為可能。大數(shù)據(jù)分析方法已經(jīng)在信用識別、垃圾過濾、過度開發(fā)、誘惑欺詐、軌跡尋蹤等應(yīng)用研究中顯露手腳,其潛在的能量與應(yīng)用前景無疑有著更為廣闊的空間。
與傳統(tǒng)的統(tǒng)計(jì)分析相比,大數(shù)據(jù)有著來源復(fù)雜、體量巨大、價值潛伏等特點(diǎn),這使得大數(shù)據(jù)分析必然要依托計(jì)算機(jī)技術(shù)予以實(shí)現(xiàn)。這也逐漸演變出大數(shù)據(jù)分析的兩個研究方向:第一個方向側(cè)重于數(shù)據(jù)的處理與表示,主要強(qiáng)調(diào)采集、存取、加工和可視化數(shù)據(jù)的方法;第二個方向則研究數(shù)據(jù)的統(tǒng)計(jì)規(guī)律,側(cè)重于對微觀數(shù)據(jù)本質(zhì)特征的提取和模式發(fā)現(xiàn)。經(jīng)過多年的實(shí)踐探索,業(yè)界已經(jīng)越來越清晰的意識到只有在兩個方向上的協(xié)同、均衡推進(jìn),才能保障大數(shù)據(jù)應(yīng)用的穩(wěn)健成長和可持續(xù)發(fā)展。因此,大數(shù)據(jù)分析的發(fā)展重心也逐漸由數(shù)據(jù)處理的技術(shù)向數(shù)據(jù)分析的科學(xué)傾斜,后者正是本書的焦點(diǎn)與重點(diǎn)。
相應(yīng)的,我們所指的大數(shù)據(jù)分析方法主要取材于統(tǒng)計(jì)學(xué)習(xí)( Statistical Learning)、數(shù)據(jù)挖掘( Data Mining)和模式識別( Pattern Recognization)等領(lǐng)域,這些內(nèi)容安排在第 3章、第 4章、第 5章、第 6章和第 7章。第 2章著重介紹數(shù)據(jù)挖掘流程與數(shù)據(jù)處理技術(shù)。大數(shù)據(jù)分析還是一門與應(yīng)用結(jié)合很強(qiáng)的課程,我們精心挑選了三類典型的應(yīng)用模型,內(nèi)容安排在第 8章、第 9章和第 10章。本書集方法與應(yīng)用于一冊,希望讀者通過方法的學(xué)習(xí)掌握復(fù)雜數(shù)據(jù)的分析與建模;通過應(yīng)用的學(xué)習(xí)能按照實(shí)證研究的規(guī)范和數(shù)據(jù)挖掘的流程開展大數(shù)據(jù)的研發(fā)。除此之外,大數(shù)據(jù)分析還有很強(qiáng)的實(shí)踐性,為體現(xiàn)這一特點(diǎn),我們強(qiáng)調(diào)了工具的作用。通過工具的學(xué)習(xí)希望讀者能夠熟練掌握一門數(shù)據(jù)分析語言。本書大部分方法將給出 R軟件的示范程序, R軟件是免費(fèi)、開源、專業(yè)、前沿的統(tǒng)計(jì)分析軟件,分析研究數(shù)據(jù)的功能強(qiáng)大,是實(shí)踐和領(lǐng)會大數(shù)據(jù)建模的有效途徑。另外,書中也使用了少量的 JMP和 Statistica等工具的分析結(jié)果。
本書既可用做培養(yǎng)應(yīng)用統(tǒng)計(jì)專業(yè)碩士的教材,也適用于管理學(xué)、信息學(xué)、統(tǒng)計(jì)學(xué)等專業(yè)進(jìn)行數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、人工智能等相關(guān)領(lǐng)域的教學(xué)與研究。研究生或本科高年級的數(shù)據(jù)挖掘課程可通過基本原理的學(xué)習(xí),了解不同的模型和算法的設(shè)計(jì)特點(diǎn),并通過每章后面所列參考文獻(xiàn)進(jìn)行延伸閱讀。
本書通過案例講解算法,以提高讀者實(shí)際解決問題的能力。書中的案例也可用做提高學(xué)生統(tǒng)計(jì)咨詢能力的課堂訓(xùn)練。在習(xí)題練習(xí)中的一些題目可作為課堂案例,安排學(xué)生分組討論,并鼓勵學(xué)生演示分析思路和分享分析收獲。使學(xué)生有機(jī)會診斷問題,并學(xué)會選用適當(dāng)?shù)姆椒ê图夹g(shù)分析數(shù)據(jù)。通過案例教學(xué)的方式將對學(xué)生領(lǐng)會大數(shù)據(jù)分析方法和應(yīng)用大有助益。
如上所述,本書內(nèi)容由 10章構(gòu)成:大數(shù)據(jù)分析概述,數(shù)據(jù)挖掘流程,有指導(dǎo)的學(xué)習(xí),無指導(dǎo)的學(xué)習(xí),貝葉斯分類和因果學(xué)習(xí),高維回歸及變量選擇,圖模型,客戶關(guān)系管理,社會網(wǎng)絡(luò)分析,自然語言模型和文本挖掘。教學(xué)內(nèi)容建議一學(xué)期 54學(xué)時完成,其中至少應(yīng)該安排 10學(xué)時用于大數(shù)據(jù)分析項(xiàng)目的上機(jī)實(shí)驗(yàn)和討論。
作者過去 6年中一直在給高年級本科生和研究生講授數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)課程,本書是作者結(jié)合多年授課的講義與課題研究成果基礎(chǔ)上匯編而成。全書由王星策劃、統(tǒng)稿和校閱,其中第 1章至第 5章由王星主筆。賀詩源同學(xué)主要參與了第 2章、第 6章和第 7章的部分編寫工作,陳文同學(xué)主要參與了第 6章和第 8章的部分編寫工作,以上兩位同學(xué)還在軟件實(shí)現(xiàn)和例題整理部分做出貢獻(xiàn);鄭軼、李榮明、龔君泰、馬璇、李沐雨對第 8章至第 10章做出貢獻(xiàn);彭非老師、張波、邱逸軒、顏婭婷、王曉航、王杰彪、陳之進(jìn)和張望等同學(xué)參與了部分實(shí)驗(yàn)的討論;特別感謝 SAS 軟件 JMP事業(yè)部曹建博士、周等在軟件和相關(guān)資料方面給予的大力支持和技術(shù)解惑,他們還提供了可供學(xué)生免費(fèi)試用的版本和網(wǎng)址(具體方法列在光盤中);清華大學(xué)出版社責(zé)任編輯劉穎和他的同事們盡職盡責(zé)的努力,在此一并致以衷心的謝忱。寫作本書是一個愉快的過程,在這個新的科研方向和應(yīng)用領(lǐng)域上,這支由年輕人組成的團(tuán)隊(duì)激情澎湃、勇于探索,他們鉆研探究的精神風(fēng)貌為我留下諸多美好回憶,也凝聚了開拓未來前進(jìn)的不竭動力。大數(shù)據(jù)分析方法和應(yīng)用涉獵很廣,很難一本書面面俱到,書中尚存不詳不妥之處,敬請讀者指正。
王 星
中國人民大學(xué)應(yīng)用統(tǒng)計(jì)科學(xué)研究中心 2013年 7月
第1章 大數(shù)據(jù)分析概述
1.1 大數(shù)據(jù)概述
1.1.1 什么是大數(shù)據(jù)
1.1.2 數(shù)據(jù)、信息與認(rèn)知
1.1.3 數(shù)據(jù)管理與數(shù)據(jù)庫
1.1.4 數(shù)據(jù)倉庫
1.1.5 數(shù)據(jù)挖掘的內(nèi)涵和基本特征
1.2 數(shù)據(jù)挖掘的產(chǎn)生與功能
1.2.1 數(shù)據(jù)挖掘的歷史
1.2.2 數(shù)據(jù)挖掘的功能
1.3 數(shù)據(jù)挖掘與相關(guān)領(lǐng)域之間的關(guān)系
1.3.1 數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)
1.3.2 數(shù)據(jù)挖掘與數(shù)據(jù)倉庫
1.3.3 數(shù)據(jù)挖掘與統(tǒng)計(jì)學(xué)
1.3.4 數(shù)據(jù)挖掘與智能決策
第1章 大數(shù)據(jù)分析概述
1.1 大數(shù)據(jù)概述
1.1.1 什么是大數(shù)據(jù)
1.1.2 數(shù)據(jù)、信息與認(rèn)知
1.1.3 數(shù)據(jù)管理與數(shù)據(jù)庫
1.1.4 數(shù)據(jù)倉庫
1.1.5 數(shù)據(jù)挖掘的內(nèi)涵和基本特征
1.2 數(shù)據(jù)挖掘的產(chǎn)生與功能
1.2.1 數(shù)據(jù)挖掘的歷史
1.2.2 數(shù)據(jù)挖掘的功能
1.3 數(shù)據(jù)挖掘與相關(guān)領(lǐng)域之間的關(guān)系
1.3.1 數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)
1.3.2 數(shù)據(jù)挖掘與數(shù)據(jù)倉庫
1.3.3 數(shù)據(jù)挖掘與統(tǒng)計(jì)學(xué)
1.3.4 數(shù)據(jù)挖掘與智能決策
1.3.5 數(shù)據(jù)挖掘與云計(jì)算
1.4 大數(shù)據(jù)研究方法
1.5 討論題目
1.6 推薦閱讀
第2章 數(shù)據(jù)挖掘流程
2.1 數(shù)據(jù)挖掘流程概述
2.1.1 問題識別
2.1.2 數(shù)據(jù)理解
2.1.3 數(shù)據(jù)準(zhǔn)備
2.1.4 建立模型
2.1.5 模型評價
2.1.6 部署應(yīng)用
2.2 離群點(diǎn)發(fā)現(xiàn)
2.2.1 基于統(tǒng)計(jì)的離群點(diǎn)檢測
2.2.2 基于距離的離群點(diǎn)檢測
2.2.3 局部離群點(diǎn)算法
2.3 不平衡數(shù)據(jù)級聯(lián)算法
2.4 討論題目
2.5 推薦閱讀
第3章 有指導(dǎo)的學(xué)習(xí)
3.1 有指導(dǎo)的學(xué)習(xí)概述
3.2 k-近鄰
……
第4章 無指導(dǎo)的學(xué)習(xí)
第5章 貝葉斯分類和因果學(xué)習(xí)
第6章 高維回歸及變量選擇
第7章 圖模型
第8章 客戶關(guān)系管理
第9章 社會網(wǎng)絡(luò)分析
第10章 自然語言模型和文本挖掘