本書從大數(shù)據(jù)的采集、存儲(chǔ)、計(jì)算、分析挖掘、可視化、應(yīng)用和安全等角度,全面解析大數(shù)據(jù)技術(shù)原理及應(yīng)用實(shí)踐。在此基礎(chǔ)上介紹大數(shù)據(jù)的技術(shù)架構(gòu)和關(guān)鍵技術(shù),結(jié)合應(yīng)用實(shí)踐,詳細(xì)闡述了傳統(tǒng)信息系統(tǒng)與大數(shù)據(jù)平臺(tái)的整合策略,大數(shù)據(jù)應(yīng)用實(shí)踐的流程和方法,并介紹了主要的大數(shù)據(jù)應(yīng)用產(chǎn)品和解決方案。
在未來5~10年,我國(guó)大數(shù)據(jù)市場(chǎng)規(guī)模年均增速將超過30%。未來5年,國(guó)內(nèi)大數(shù)據(jù)人才缺口將突破150萬。在BAT發(fā)布的招聘職位中,目前大數(shù)據(jù)崗位占比已經(jīng)超過60%。現(xiàn)在業(yè)界有一種觀點(diǎn):即使把全國(guó)所有計(jì)算機(jī)專業(yè)都做成大數(shù)據(jù)專業(yè),仍然無法滿足國(guó)內(nèi)對(duì)大數(shù)據(jù)人才的需求量。
在快速膨脹的需求與國(guó)家扶植政策的推動(dòng)下,全國(guó)高校、高職、高專院校紛紛啟動(dòng)大數(shù)據(jù)人才培養(yǎng)計(jì)劃。然而,大數(shù)據(jù)專業(yè)建設(shè)卻面臨重重困難。首先,大數(shù)據(jù)是個(gè)新生事物,懂大數(shù)據(jù)的老師少之又少,院校缺“人”;其次,尚未形成完善的大數(shù)據(jù)人才培養(yǎng)和課程體系,院校缺“機(jī)制”;再次,大數(shù)據(jù)實(shí)驗(yàn)需要為每位學(xué)生提供集群計(jì)算機(jī),院校缺“機(jī)器”;最后,院校不擁有海量數(shù)據(jù),開展大數(shù)據(jù)教學(xué)科研工作缺“原材料”。
其實(shí),在2000年網(wǎng)格計(jì)算興起時(shí)和2008年云計(jì)算興起時(shí),我國(guó)科技工作者都曾遇到過類似的挑戰(zhàn)問題,我有幸參與了這些問題的解決過程:
為了解決網(wǎng)格計(jì)算挑戰(zhàn)問題,我在清華大學(xué)讀博期間,于2001年創(chuàng)辦了中國(guó)網(wǎng)格信息中轉(zhuǎn)站(chinagrid.net)網(wǎng)站,每天花好幾個(gè)小時(shí)收集和分享有價(jià)值的資料給學(xué)術(shù)界。于2002年與人合作出版了《網(wǎng)格計(jì)算》教材。并多次籌辦和主持全國(guó)性的網(wǎng)格計(jì)算學(xué)術(shù)會(huì)議。
為了解決云計(jì)算挑戰(zhàn)問題,我于2008年創(chuàng)辦了中國(guó)云計(jì)算(chinacloud.cn)網(wǎng)站,于2010年出版了《云計(jì)算(第一版)》、2011年出版了《云計(jì)算(第二版)》、2015年出版了《云計(jì)算(第三版)》,每一版都花費(fèi)大量成本制作并免費(fèi)分享對(duì)應(yīng)的幾十個(gè)教學(xué)PPT。這些PPT的下載總量達(dá)到了幾百萬次之多。早在2010年,我就在南京組織了全國(guó)高校云計(jì)算師資培訓(xùn)班,培養(yǎng)了國(guó)內(nèi)第一批云計(jì)算老師。并通過與華為、中興、360等知名企業(yè)合作,輸出云計(jì)算技術(shù),培養(yǎng)云計(jì)算研發(fā)人才。為社區(qū)做貢獻(xiàn),收獲是沉甸甸的:我獲得了大家的好評(píng)與認(rèn)可,擔(dān)任了一些全國(guó)性專家委員會(huì)的專家,《云計(jì)算》教材成了國(guó)內(nèi)高校的首選教材,中國(guó)云計(jì)算網(wǎng)站成了國(guó)內(nèi)排名第一的云計(jì)算網(wǎng)站。
近幾年,我用類似的辦法來解決我們所面臨的大數(shù)據(jù)挑戰(zhàn)問題。為了解決大數(shù)據(jù)技術(shù)資料缺乏和存在交流障礙的問題,我于2013年創(chuàng)辦了中國(guó)大數(shù)據(jù)(thebigdata.cn)網(wǎng)站,投入大量的人力每天維護(hù),該網(wǎng)站已經(jīng)在各大搜索引擎排名“大數(shù)據(jù)”關(guān)鍵詞第一名;為了解決大數(shù)據(jù)師資匱乏的問題,我面向全國(guó)院校,陸續(xù)舉辦多期大數(shù)據(jù)教師培訓(xùn)班。最近在南京舉辦的全國(guó)高校/高職/中職大數(shù)據(jù)免費(fèi)培訓(xùn)班,報(bào)名的老師已有400多位;為了解決缺乏權(quán)威大數(shù)據(jù)教材的問題,我所負(fù)責(zé)的南京大數(shù)據(jù)研究院,聯(lián)合金陵科技學(xué)院、河南大學(xué)、南陽理工學(xué)院、南陽理工學(xué)院、云創(chuàng)大數(shù)據(jù)、許昌學(xué)院、安徽師范大學(xué)、才云科技、中國(guó)地震局、南京公安研究院等多家單位,歷時(shí)兩年,編著了《大數(shù)據(jù)》教材和《大數(shù)據(jù)庫》教材。并計(jì)劃為高職和中職院校專門編寫大數(shù)據(jù)專業(yè)系列教材。我們將在中國(guó)大數(shù)據(jù)(thebigdata.cn)、中國(guó)云計(jì)算(chinacloud.cn)和劉鵬看未來(lpoutlook)微信公眾號(hào)等陸續(xù)免費(fèi)提供配套PPT和其他資料;為了解決大數(shù)據(jù)實(shí)驗(yàn)難以開展的問題,我?guī)ьI(lǐng)云創(chuàng)大數(shù)據(jù)(www.cstor.cn)的科研人員,研發(fā)成功BDRack大數(shù)據(jù)實(shí)驗(yàn)一體機(jī),它打破虛擬化技術(shù)的性能瓶頸,可以為每一位參加實(shí)驗(yàn)的人員虛擬出Hadoop集群、Spark集群、 MongoDB集群、Storm集群等,自帶實(shí)驗(yàn)所需數(shù)據(jù),并準(zhǔn)備了詳細(xì)的實(shí)驗(yàn)手冊(cè)、PPT和視頻,可以開展大數(shù)據(jù)管理、大數(shù)據(jù)挖掘等各類實(shí)驗(yàn),并可進(jìn)行精確營(yíng)銷、信用分析等多種實(shí)戰(zhàn)演練。目前該平臺(tái)已經(jīng)在鄭州大學(xué)等高校成功應(yīng)用。我們還開放了免費(fèi)的物聯(lián)網(wǎng)大數(shù)據(jù)托管平臺(tái)——萬物云(wanwuyun.com)和環(huán)境大數(shù)據(jù)免費(fèi)分享平臺(tái)——環(huán)境云(envicloud.cn)
在此,特別感謝我的碩士導(dǎo)師謝希仁教授和博士導(dǎo)師李三立院士。謝希仁教授出版的《計(jì)算機(jī)網(wǎng)絡(luò)》已經(jīng)更新到第6版,與時(shí)俱進(jìn)且日臻完美,時(shí)時(shí)提醒學(xué)生要以這樣的標(biāo)準(zhǔn)來寫書。李三立院士是留蘇博士,為我國(guó)計(jì)算機(jī)事業(yè)做出了杰出貢獻(xiàn),曾任國(guó)家攀登計(jì)劃項(xiàng)目首席科學(xué)家。他的嚴(yán)謹(jǐn)治學(xué)帶出了一大批杰出的學(xué)生。
本書是集體智慧的結(jié)晶,在此謹(jǐn)向付出辛勤勞動(dòng)的各位作者致敬!書中難免會(huì)有不當(dāng)之處,務(wù)必讀者不吝賜教。我的郵箱:gloud@126.com,微信公眾號(hào):劉鵬看未來(lpoutlook)。
劉鵬 教授
于南京大數(shù)據(jù)研究院
2016年12月24日
劉鵬,清華大學(xué)博士,解放軍理工大學(xué)教授、學(xué)科帶頭人,中國(guó)云計(jì)算專家委員會(huì)委員。主要研究方向?yàn)樾畔⒕W(wǎng)格和云計(jì)算,完成科研課題18項(xiàng),發(fā)表論文70余篇,獲部級(jí)科技進(jìn)步獎(jiǎng)6項(xiàng)。曾奪得國(guó)際計(jì)算機(jī)排序比賽冠軍,并二次奪得全國(guó)高?萍急荣*高獎(jiǎng),獲“全軍十大學(xué)習(xí)成才標(biāo)兵”、“南京十大杰出青年”和“清華大學(xué)學(xué)術(shù)新秀”等稱號(hào)。2002年首倡的“網(wǎng)格計(jì)算池”和2003年研發(fā)的“反垃圾郵件網(wǎng)格”分別為云計(jì)算和云安全的前身。創(chuàng)辦了知名的中國(guó)網(wǎng)格和中國(guó)云計(jì)算網(wǎng)站。
第1章 大數(shù)據(jù)概念與應(yīng)用
1.1 大數(shù)據(jù)之“大”
1.2 大數(shù)據(jù)的來源
1.3 大數(shù)據(jù)的技術(shù)支撐
1.4 大數(shù)據(jù)應(yīng)用場(chǎng)景
1.5 如何開展大數(shù)據(jù)研發(fā)
習(xí)題
參考文獻(xiàn)
第2章 數(shù)據(jù)采集與預(yù)處理
2.1 大數(shù)據(jù)采集架構(gòu)
2.2 數(shù)據(jù)預(yù)處理原理
2.3 數(shù)據(jù)倉庫與ETL工具
習(xí)題
參考文獻(xiàn)
第3章 數(shù)據(jù)挖掘算法
3.1 數(shù)據(jù)挖掘概述
3.2 分類
3.3 聚類
3.4 關(guān)聯(lián)規(guī)則
3.5 預(yù)測(cè)模型
3.6 數(shù)據(jù)挖掘算法綜合應(yīng)用
習(xí)題
參考文獻(xiàn)
第4章 大數(shù)據(jù)挖掘工具
4.1 Mahout
4.2 Spark MLlib
4.3 其他數(shù)據(jù)挖掘工具
習(xí)題
參考文獻(xiàn)
第5章 R語言
5.1 R語言簡(jiǎn)介
5.2 R與數(shù)據(jù)挖掘
5.3 SparkR
習(xí)題
參考文獻(xiàn)
第6章 大數(shù)據(jù)可視化
6.1 數(shù)據(jù)可視化基礎(chǔ)
6.2 大數(shù)據(jù)可視化方法
6.3 大數(shù)據(jù)可視化軟件與工具
習(xí)題
參考文獻(xiàn)
第7章 互聯(lián)網(wǎng)大數(shù)據(jù)處理
7.1 互聯(lián)網(wǎng)信息抓取
7.2 文本分詞
7.3 倒排索引
7.4 網(wǎng)頁排序算法
7.5 歷史信息檢索
習(xí)題
參考文獻(xiàn)
第8章 大數(shù)據(jù)商業(yè)應(yīng)用
8.1 用戶畫像與精準(zhǔn)營(yíng)銷
8.2 廣告推薦
8.3 互聯(lián)網(wǎng)金融
習(xí)題
參考文獻(xiàn)
第9章 行業(yè)大數(shù)據(jù)
9.1 地震大數(shù)據(jù)
9.2 交通大數(shù)據(jù)
9.3 環(huán)境大數(shù)據(jù)
9.4 警務(wù)大數(shù)據(jù)
習(xí)題
參考文獻(xiàn)
附錄:大數(shù)據(jù)實(shí)驗(yàn)一體機(jī)