《社交大數(shù)據(jù)挖掘》緊緊圍繞社交媒體中的大數(shù)據(jù)問題,系統(tǒng)介紹了社交大數(shù)據(jù)的基本概念以及相關(guān)的大數(shù)據(jù)處理技術(shù),重點(diǎn)介紹了網(wǎng)頁和媒體的大數(shù)據(jù)挖掘!渡缃淮髷(shù)據(jù)挖掘》共分為14章,總體上可以分為三部分:第一部分包括第1章和第2章,介紹了社交大數(shù)據(jù)的基本概念和內(nèi)涵,明晰了社交大數(shù)據(jù)與一般大數(shù)據(jù)的區(qū)別;第二部分為第3章至第9章,介紹了大數(shù)據(jù)處理中涉及的基本概念和技術(shù)方法,包括假設(shè)的定義、通過數(shù)據(jù)挖掘提出假設(shè)的方法,以及假設(shè)驗(yàn)證的分析方法;第三部分為第10章至第14章,詳細(xì)介紹了社交大數(shù)據(jù)中的網(wǎng)頁和媒體數(shù)據(jù)挖掘技術(shù)、自然語言處理技術(shù),以及社交大數(shù)據(jù)的應(yīng)用!渡缃淮髷(shù)據(jù)挖掘》體系結(jié)構(gòu)完整,內(nèi)容關(guān)注于具有鮮明特色的社交媒體大數(shù)據(jù),行文通俗易懂,同時(shí)兼具較好的理論參考價(jià)值、實(shí)用性和指導(dǎo)性!渡缃淮髷(shù)據(jù)挖掘》可為具有一定相關(guān)專業(yè)基礎(chǔ)、對大數(shù)據(jù)感興趣的師生、工程師及其他專業(yè)人士提供參考。
原書前言當(dāng)今時(shí)代,在科學(xué)界、互聯(lián)網(wǎng)以及物理系統(tǒng)中不斷產(chǎn)生大量的數(shù)據(jù),這些數(shù)據(jù)統(tǒng)稱為數(shù)據(jù)洪流。根據(jù)IDC(互聯(lián)網(wǎng)數(shù)據(jù)中心)的研究,每年全世界產(chǎn)生和復(fù)制的數(shù)據(jù)估計(jì)有161EB。僅2011年產(chǎn)生的數(shù)據(jù)總量就超過了該年度可用存儲(chǔ)介質(zhì)的存儲(chǔ)容量的10倍或更多。
科學(xué)和工程領(lǐng)域的專家通過觀察和分析目標(biāo)現(xiàn)象會(huì)產(chǎn)生大量的數(shù)據(jù),甚至普通人通過互聯(lián)網(wǎng)上的各種社交媒體也會(huì)自發(fā)發(fā)布大量的數(shù)據(jù)。此外,在真實(shí)世界中,人們通過物理系統(tǒng)檢測到的各種動(dòng)作會(huì)無意識(shí)地產(chǎn)生數(shù)據(jù)。,這些數(shù)據(jù)通常被認(rèn)為能夠產(chǎn)生有價(jià)值的信息。
在上述IDC的研究報(bào)告中,科學(xué)界、互聯(lián)網(wǎng)和物理系統(tǒng)中產(chǎn)生的數(shù)據(jù)統(tǒng)稱為大數(shù)據(jù)。
大數(shù)據(jù)的特點(diǎn)可以概括如下。
數(shù)量(Volume)大:正如它的名字所示,大數(shù)據(jù)的數(shù)量是非常大的。
種類(Variety)多:數(shù)據(jù)的種類可以擴(kuò)展到非結(jié)構(gòu)化文本、半結(jié)構(gòu)化數(shù)據(jù),比如網(wǎng)絡(luò)中的XML、圖表等。
速度(Velocity)快:如同推特(Twitter)和傳感器數(shù)據(jù)流的情況一樣,數(shù)據(jù)生成的速度非?臁
因此,大數(shù)據(jù)的特征通常用V3來表示,即數(shù)量、種類和速度這三個(gè)單詞的首字母。
人們期望大數(shù)據(jù)能夠有助于獲取科學(xué)知識(shí),而且企業(yè)也能從中獲得價(jià)值。
“種類多”意味著大數(shù)據(jù)出現(xiàn)在各種各樣的應(yīng)用中。大數(shù)據(jù)本質(zhì)上包含“模糊性”
。╲agueness),比如它的不一致性和缺失等。為了獲得有價(jià)值的分析結(jié)果,就必須解決模糊性的問題。此外,最近在日本完成的一項(xiàng)調(diào)查顯示,很多用戶對“模糊性”的擔(dān)憂如同對大數(shù)據(jù)應(yīng)用安全和機(jī)制的擔(dān)心一樣。解決這些問題是大數(shù)據(jù)應(yīng)用能否成功推廣的一個(gè)關(guān)鍵。從這個(gè)意義上講,應(yīng)該用V4而不是V3來描述大數(shù)據(jù)。
數(shù)據(jù)分析師也被稱作數(shù)據(jù)科學(xué)家。在大數(shù)據(jù)時(shí)代,需要越來越多的數(shù)據(jù)科學(xué)家,他們必備的技能包括以下方面:
·能夠構(gòu)建一個(gè)假設(shè)·能夠驗(yàn)證假設(shè)·挖掘社交數(shù)據(jù)以及通用Web數(shù)據(jù)的能力·能夠處理自然語言信息·能夠恰當(dāng)?shù)貙?shù)據(jù)和知識(shí)表示出來·能夠恰當(dāng)?shù)貙?shù)據(jù)和結(jié)果進(jìn)行可視化·使用地理信息系統(tǒng)(Geographical Information Systems,GIS)的能力·了解各種各樣的應(yīng)用程序·了解可擴(kuò)展性的知識(shí)·了解和遵守與隱私和安全有關(guān)的道德和法律·能夠使用安全系統(tǒng)·能夠與客戶交流根據(jù)上述標(biāo)準(zhǔn),本書的內(nèi)容不一定很全面。然而,從社交大數(shù)據(jù)的角度來看,本書二要關(guān)注的是下述基本概念和相關(guān)技術(shù):
·大數(shù)據(jù)和社交數(shù)據(jù)·假設(shè)的概念·用于做出假設(shè)的數(shù)據(jù)挖掘·用于驗(yàn)證假設(shè)的多變量分析.Web挖掘和媒體挖掘·自然語言處理·社交大數(shù)據(jù)應(yīng)用·可擴(kuò)展性簡而言之,本書介紹了特征假設(shè),它在社交大數(shù)據(jù)時(shí)代中具有越來越重要的地位,刖外,還介紹了分析技術(shù),如社交大數(shù)據(jù)的建模、數(shù)據(jù)挖掘和多變量分析。本書與其他同婁書的不同之處在于,本書從學(xué)術(shù)基礎(chǔ)出發(fā),目的是描繪出社交大數(shù)據(jù)從基本概念到應(yīng)用削全景。
希望本書能夠?yàn)槟切⿲ι缃淮髷?shù)據(jù)感興趣的讀者所廣泛使用,包括學(xué)生、工程師、莽學(xué)家和其他專業(yè)人士。此外,我要深深感謝家人的大力支持。
石川博(Hiroshi Ishikawa)
譯者序
原書前言
第1章社交媒體
1. 1什么是社交媒體
1.2代表性社交媒體
1.2.1 Twitter一
1.2.2 Flickr
1.2.3 YouTube
1.2.4 Facebook
1.2.5維基百科
1.2.6通用網(wǎng)絡(luò)
1.2.7其他社交媒體
參考文獻(xiàn)
第2章大數(shù)據(jù)和社交數(shù)據(jù)
2.1 大數(shù)據(jù)
2.2物理真實(shí)世界與社交媒體的交互
2.3集成框架
2.4交互的建模和分析
2.5元分析模型——概念層
2.5.1面向?qū)ο蟮募煞治瞿P?
2.5.2原始案例
2.6假設(shè)的生成和驗(yàn)證——邏輯層
2.6.1多變量分析
2.6.2數(shù)據(jù)挖掘
2.6.3發(fā)現(xiàn)和識(shí)別影響
2.6.4影響的定量測量
2.7 興趣回顧——互動(dòng)挖掘
2.8分布式并行計(jì)算框架
2. 8.1 NoSQL
2.8.2 MapReduce--種并行分布式計(jì)算的機(jī)制
2.8.3 Hadoop
參考文獻(xiàn)
第3章大數(shù)據(jù)時(shí)代的假設(shè)
3.1 什么是假設(shè)
3.2數(shù)據(jù)采樣
3.3假設(shè)驗(yàn)證
3.4假設(shè)構(gòu)建
3.4.1歸納法
3.4.2推理
3.4.3可信推理
3.4.4不明推論式
3.4.5相關(guān)性
3.4.6因果關(guān)系
3.4.7類比
3.4.8傳遞定律
3.5假設(shè)的粒度
3.6 對假設(shè)的重新審視
參考文獻(xiàn)
第4章社交大數(shù)據(jù)應(yīng)用
4.1普通網(wǎng)頁與社交媒體之間作為分析主體的差異
4.2基于要素的社交媒體應(yīng)用分類
4.3基于目標(biāo)的社交媒體應(yīng)用分類
4.4通過MiPS模型描
第5章數(shù)據(jù)挖掘中的基本概念
第6章關(guān)聯(lián)規(guī)則挖掘
第7章聚類
第8章分類
第9章預(yù)測
第10章Wep結(jié)構(gòu)挖掘
第11章Wep內(nèi)容挖掘
第12章Wep訪問日志挖掘 信息提取 深層Wep挖掘
第13章媒體挖掘
第14章可擴(kuò)展性和異常檢測
附錄