在數據洪流中沙里淘金,挖掘大數據背后的價值洼地,為企業(yè)帶來下一個增長紅利。
在互聯網風氣云涌的時代,很多企業(yè)擁有數據金礦,卻很少能挖出真金白銀。數據本身不產生價值,企業(yè)只有分析和利用大數據,才能將散落在各個平臺中的數據的真正商業(yè)價值挖掘出來。數據挖掘已成為解決復雜商業(yè)問題、抓住商機的常用工具。
《大數據掘金》一書介紹了數據挖掘與分析領域的**案例,揭示了如何系統(tǒng)運用數據,找出其中隱含的模式與聯系,幫助你更好的利用收集到的數據為自己服務。
在這本書中,你將見識數據挖掘過程、方法與技巧當前在商業(yè)領域廣闊的應用,學習使用有效的數據管理方法、工具和矩陣,認識文本和網頁數據挖掘,進行大數據整合以及更多相關數據分析知識:
分析:實用、有效的分類;
數據挖掘:將數據轉化為信息和知識;
應用:涉及市場營銷、金融、醫(yī)療衛(wèi)生、國防等領域;
方法與標準:KDD、CRISP-DM、SEMMA以及六西格瑪(Six Sigma DMAIC)方法;
數據與方法:處理結構化、非結構化、半結構化的數據;
算法與統(tǒng)計:鄰近算法、神經網絡算法、SVMs;
文本分析與挖掘:情感分析、自然語言分析;
大數據:數量、種類、速度、真實性、可變性及價值。
在滾滾而來的數據洪流中沙里淘金,挖掘大數據背后的價值洼地,為企業(yè)帶來下一個增長紅利。
本書作者是國際知名的商務分析與數據挖掘專家、俄克拉何馬州立大學斯皮爾斯商學院管理科學與信息系統(tǒng)教授杜爾森·德倫博士。
在《大數據掘金》這本書中,德倫博士運用平實的語言和在該領域前沿積累的研究成果,撥開從數據挖掘的工作流程到算法的層層面紗,全面介紹了數據挖掘的核心原則、**做法以及在市場營銷、金融、國防領域的關鍵應用,幫助讀者運用**的數據挖掘方法實施及時、可行、有理有據的決策。
·一本文本及網頁挖掘、情感分析以及大數據的**入門指南;
·全面的數據挖掘框架:過程、方法、技術、評估、工具等;
·簡明教程與現代化案例分析揭秘復雜概念;
·適合管理者、分析團隊成員、資質認證考生及學生。
杜爾森·德倫博士
國際知名的商務分析與數據挖掘專家,經常受邀參加全國乃至國際會議,就數據與文本挖掘、商務情報、決策支持系統(tǒng)、商業(yè)分析以及知識管理等話題發(fā)表演講。
德倫博士是威廉姆·斯皮爾斯和尼爾·帕特森商務分析榮譽主席、健康系統(tǒng)創(chuàng)新中心的研究主任,俄克拉何馬州立大學斯皮爾斯商學院管理科學與信息系統(tǒng)教授,F已出版多部關于商務分析與數據挖掘方面的著作。
丁曉松(譯者)
北京外國語大學國際商學院管理科學與工程系教授,主要的研究領域包括庫存管理、模糊決策分析、**化算法、供應鏈績效評估等。迄今為止,丁曉松教授已在國內外知名學術期刊發(fā)表論文多篇,并出版《大數據供應鏈》等多部譯著和專著。
第1 章 分析學入門 / 1 /
分析學與分析有區(qū)別嗎 / 3 /
數據挖掘該歸何處 / 3 /
分析學何以突然受到追捧 / 4 /
分析學的應用領域 / 6 /
分析學面臨的主要挑戰(zhàn) / 6 /
分析學的發(fā)展歷史 / 8 /
分析學的簡單分類 / 12 /
分析學的前沿技術——以IBM Watson 為例 / 17 /
第2 章 數據挖掘入門 / 25 /
數據挖掘是什么 / 28 /
哪些不屬于數據挖掘 / 30 /
數據挖掘最常見的應用 / 32 /
數據挖掘能夠發(fā)現怎樣的規(guī)律 / 36 /
常用的數據挖掘工具 / 41 /
數據挖掘的負面影響:隱私問題 / 46 /
第3 章 數據挖掘過程 / 54 /
數據庫知識獲取過程 / 54 /
跨行業(yè)標準化數據挖掘流程 / 56 /
SEMMA / 62 /
數據挖掘六西格瑪方法 / 66 /
哪種方法最好 / 69 /
第4 章 數據與數據挖掘的方法 / 74 /
數據挖掘中的數據屬性 / 74 /
數據挖掘中的數據預處理 / 77 /
數據挖掘方法 / 82 /
預測法 / 83 /
分類法 / 83 /
決策樹 / 91 /
數據挖掘中的聚類分析 / 93 /
K 均值聚類算法 / 97 /
關聯法 / 98 /
Apriori 算法 / 102 /
對數據挖掘的誤解與事實 / 103 /
第5 章 數據挖掘算法 / 112 /
近鄰算法 / 113 /
評估相似性:距離度量 / 114 /
人工神經網絡 / 117 /
支持向量機 / 128 /
線性回歸 / 133 /
邏輯回歸 / 138 /
時間序列預測 / 140 /
第6 章 文本分析和情感分析 / 145 /
自然語言處理 / 150 /
文本挖掘應用 / 154 /
文本挖掘的流程 / 159 /
文本挖掘工具 / 171 /
情感分析 / 172 /
第7 章 大數據分析學 / 183 /
大數據從何而來 / 184 /
定義“大數據”的V 們 / 186 /
大數據的關鍵概念 / 190 /
大數據分析處理的商業(yè)問題 / 195 /
大數據科技 / 196 /
數據科學家 / 205 /
大數據和流分析法 / 208 /
數據流挖掘 / 210 /
譯者后記 / 213 /
杜爾森·德倫博士的著作簡明清晰、內容豐富,為渴望了解數據分析、數據挖掘和“大數據”的讀者提供了實用的學習工具。在商業(yè)活動越來越復雜、越來越趨向全球化的今天,決策者必須依靠現有的信息采取快速準確的行動,現代數據挖掘和分析是制定決策所必不可少的。本書明確了該領域當前的最佳做法,向讀者——主要是學生和從業(yè)者——展示了如何應用數據的挖掘與分析發(fā)現數據隱含的規(guī)律與聯系,如何利用這些信息改進并提升整個決策過程。
作者選取了適量的概念、技術和案例幫助讀者真正理解數據挖掘技術的運行原理。這些技術包括:數據挖掘過程、方法與技術,數據的作用與管理,工具與量表,文本與網頁挖掘,情感分析,以及接下來與最新大數據分析方法的整合。
在第1 章中,作者巧妙地將數據分析的源頭追溯到了第二次世界大戰(zhàn)時期(見圖1—2),使用下列期刊的讀者信息作為數據:20 世紀70 年代的《決策支持系統(tǒng)》(Decision Support Systems)、20 世紀80 年代的《企業(yè)/ 高管IS 系統(tǒng)》(Enterprise/Executive IS Systems)以及我們都聽說過的20 世紀90 年代和21世紀初期的《商務智能》(Business Intelligence),最后還有當前的《分析》(Analytics)和《大數據時代》(Big Data)。第1 章的內容為后續(xù)即將論述的數據挖掘打下基礎。
在第2 章中,作者對數據挖掘進行了簡明易懂的描述,并進行了準確的分類,將數據挖掘與其他幾個相關的術語區(qū)分開來,明確表示了數據挖掘的實際意義是發(fā)現知識。認識到數據挖掘實質上是在堅持許多原則的基礎上解決問題與制定決策,無疑是思維上的一次洗禮,許多人都認為數據挖掘本身是一種新概念。這一章運用現實生活中的真實案例、具有啟發(fā)性的圖表以及平實的語言,向廣大讀者揭開了數據挖掘的神秘面紗。這種方法十分巧妙,將數據挖掘這樣看似復雜而又富有技術含量的話題介紹給了普羅大眾。
在第3 章中,德倫博士以淺顯易懂的形式向讀者展示了規(guī)范數據挖掘過程的不同方法。該章介紹的第一種方法是數據庫知識獲。↘nowledge Discovery in Database,KDD),這種方法由業(yè)界先驅尤薩馬·法雅德(Usama Fayyad)首創(chuàng)。德倫博士在討論中展示了KDD 技術,并用圖表加以說明(見圖3—1),清楚地顯示了運用KDD 技術進行數據挖掘的過程。與此同時,這一章還介紹了眾多團體或個人提出的其他數據挖掘方案,這些方案共同構成了數據挖掘這一領域基本思想的沿革發(fā)展。為了顯示這些方案的實用性,德倫博士還在最后提供了一個案例研究——“挖掘癌癥數據,獲取最新知識”。
第4 章主要研究數據挖掘中使用到的數據,包括目前越來越頻繁使用的文本數據(即非結構化、非數字性的數據,占當今世界可用數據的近90%)。數據準備是數據挖掘最重要的一步,要建立實際可用的模型,所用的數據必須經過處理統(tǒng)計,否則就像俗語中說的“無用輸入,無用輸出”。因此,在數據挖掘過程中近乎90% 以上的時間都花在了數據準備這一環(huán)節(jié)。德倫博士竭盡所能采取種種方法統(tǒng)計整理數據,為進一步的數據分析做好準備,這些準備包括打造數據鏈,測試數據組,為學習者提供最人性化的k 倍交叉核實界面(見圖4—6)。
在第5 章中,德倫博士介紹了最常見的數據挖掘運算,其講解簡明易懂,外行人也能看出門道。此外,他還全面介紹了神經網絡與支持向量機(Support Vector Machines,SVM),使這些原本晦澀難懂的數學工具變得生動易學。其中,德倫博士親自設計的演算示例也讓本書物超所值。
第6 章詳細講述了文本挖掘(即文本分析)。一開始,德倫博士引用了我們在2012 年出版的《實用數據挖掘》(Practical Data Mining,我本人是這本書的主編)首次使用的圖表。博士成功地將我們1 100 頁的著作濃縮成短短一章——事實上,這樣的濃縮版本對初學者而言更有意義。干得漂亮,德倫!
最后,在第7 章中,德倫博士介紹了當前分析領域一個炙手可熱的名詞——大數據分析。我們幾乎每天都能在新聞中聽到“大數據”這個詞,它到底是什么意思呢?對不同的人而言,這個詞有著不同的含義。但作為一個在數據挖掘領域活躍了15 年以上的人,我可以說每時每刻都與大數據打交道。數據存儲空間的成本越來越低,云存儲逐漸進入人們的生活,一臺小小的筆記本電腦都能夠進行數據分析中的分配步驟和多線程運算。輕薄的平板電腦甚至能夠勝過幾十年前存放在開著冷氣的庫房中的主服務器,F在人們甚至可以用智能手機管理幾個服務器和云存儲。數據正日漸變“大”,而處理數據所需的物理實體卻越來越“小”。
但是大多數人對大數據都存在著誤解,至少在我看來是這樣的。許多人認為數據挖掘必須用到大數據。我與住院醫(yī)師有過10 年的合作,他們希望在為期一年的項目中研究盡可能多的案例,但在有限的時間內只能找到一部分所需的材料。以傳統(tǒng)統(tǒng)計學標準來看,這些小型數據組的研究是沒有任何意義的,但是我發(fā)現,使用工具學習這種現代數據挖掘方法,往往能夠從小數據組中得到有用的假設,獲得從前使用傳統(tǒng)費雪學派p 值統(tǒng)計法不可能得到的信息。在20世紀,傳統(tǒng)統(tǒng)計學還被認為是非主流的統(tǒng)計方法,而在20 世紀以前,貝葉斯統(tǒng)計法(Bayesian statistics)曾統(tǒng)領了數據分析領域長達幾百年之久。隨著21 世紀的到來,貝葉斯統(tǒng)計的現代形式,包括SVM、NN 及其他工具學習模型卷土重來,我們又回到了貝葉斯的時代。雖然對于“傳統(tǒng)統(tǒng)計訓練”而言,還需要一定時間來理解和跟上時代的潮流,但是統(tǒng)計領域的前沿陣地無疑是屬于貝葉斯統(tǒng)計法、數據挖掘和大數據的。
所有想要了解數據挖掘并在這一方面掌握一技之長的讀者都應該選擇這本書,當閱讀到本書的最后一頁就會發(fā)現,你已經完全了解這一領域,如蛹化蝶飛。
加里·麥尼 博士(Dr. Gary D. Miner)
戴爾信息管理集團軟件事業(yè)部
高級分析師、醫(yī)療保健應用專家
(其兩部著作曾經獲得PROSE 獎)
……