本書圍繞著如何探索和理解社交媒體系統(tǒng)的基本組成部分進行組織,簡單地說來就是誰(who)、如何(how)、何時(when)和什么(what)構成了社交媒體過程。本書的目標是“授人以漁”。在涵蓋了社交媒體分析的主要方面之后,本書還以大量篇幅介紹了大數據環(huán)境下處理社交媒體數據所需的工具、算法的原理和實際案例,讀者可以以此為基礎,快速介入生產環(huán)境下的社交媒體數據處理任務。
譯者序
前言
致謝
作者簡介
技術編輯簡介
第1章 用戶:誰參與社交媒體 1
1.1 測量Wikipedia中用戶行為的變化 1
1.1.1 用戶活動的多樣性 2
1.1.2 人類活動中的長尾效應 18
1.2 隨處可見的長尾效應:80/20定律 20
1.3 Twitter上的在線行為 23
1.3.1 檢索用戶的Tweet 24
1.3.2 對數分區(qū) 26
1.3.3 Twitter上的用戶活動 27
1.4 總結 28
第2章 網絡:社交媒體如何運行 29
2.1 社交網絡的類型和屬性 30
2.1.1 用戶何時創(chuàng)建連接:顯式網絡 30
2.1.2 有向圖與無向圖 31
2.1.3 節(jié)點和邊的屬性 31
2.1.4 加權圖 32
2.1.5 由活動構建圖:隱式網絡 33
2.2 網絡可視化 35
2.3 度:贏家通吃 38
2.3.1 連接計數 40
2.3.2 用戶連接的長尾分布 41
2.3.3 超越理想網絡模型 43
2.4 捕獲相關:三角結構、簇和同配性 45
2.4.1 局部三角結構和簇 45
2.4.2 同配性 49
2.5 總結 53
第3章 時序過程:用戶何時使用社交媒體 54
3.1 傳統(tǒng)模型如何描述事件發(fā)生的時間 54
3.2 事件間隔時間 57
3.2.1 與無記憶過程的對比 60
3.2.2 自相關 63
3.2.3 與無記憶過程的偏離 64
3.2.4 用戶活動中的時間周期 66
3.3 個體行為的爆發(fā) 70
3.4 預測長期指標 78
3.4.1 發(fā)現(xiàn)趨勢 80
3.4.2 發(fā)現(xiàn)季節(jié)性 82
3.4.3 利用ARIMA預測時間序列 84
3.5 總結 86
第4章 內容:社交媒體中有什么 88
4.1 定義內容:聚焦于文本和非結構數據 88
4.1.1 從文本生成特征:自然語言處理基礎 89
4.1.2 文本中詞條的基本統(tǒng)計 91
4.2 使用內容特征識別主題 92
4.2.1 話題的流行度 98
4.2.2 用戶個體興趣有多么多樣化 100
4.3 從高維文本中抽取低維信息 102
4.4 總結 120
第5章 處理大型數據集 122
5.1 MapReduce:組織并行和串行操作 122
5.1.1 單詞計數 124
5.1.2 偏斜:最后一個Reducer的詛咒 127
5.2 多階段MapReduce流 127
5.2.1 扇出 129
5.2.2 歸并數據流 129
5.2.3 連接兩個數據源 131
5.2.4 連接小數據集 134
5.2.5 大規(guī)模MapReduce模型 134
5.3 MapReduc程序設計模式 135
5.3.1 靜態(tài)MapReduce作業(yè) 135
5.3.2 迭代MapReduce作業(yè) 140
5.3.3 增量MapReduce作業(yè) 146
5.3.4 時間相關的MapReduce作業(yè) 146
5.3.5 處理長尾分布社交媒體數據的挑戰(zhàn) 153
5.4 抽樣和近似:以較少計算得到結果 154
5.4.1 HyperLogLog 156
5.4.2 Bloom過濾器 161
5.4.3 Count-Min Sketch 166
5.5 在Hadoop集群上運行 171
5.5.1 在Amazon EC2上安裝CHD集群 171
5.5.2 為合作者提供IAM存取 174
5.5.3 根據需要增加集群處理能力 175
5.6 總結 175
第6章 學習、映射和推薦 177
6.1 在線社交媒體服務 177
6.1.1 搜索引擎 177
6.1.2 內容參與 178
6.1.3 與現(xiàn)實世界的互動 179
6.1.4 與人的互動 180
6.2 問題闡述 180
6.3 學習和映射 182
6.3.1 矩陣分解 183
6.3.2 學習和訓練 184
6.3.3 電影評分示范 187
6.4 預測與推薦 197
6.4.1 評估 199
6.4.2 方法概述 200
6.5 總結 209
第7章 結論 210
7.1 人類互動模式出乎意料的穩(wěn)定性 210
7.2 均值、標準差和抽樣 211
7.3 移除異常值 216