本書依據(jù)商業(yè)大數(shù)據(jù)的特點,對不同類型的商業(yè)大數(shù)據(jù)進行分析和講解。全書共5 章,第1 章和第2 章分別對商業(yè)大數(shù)據(jù)分析和商業(yè)數(shù)據(jù)可視化進行了概述,第3~5 章詳細闡述了非結(jié)構(gòu)化數(shù)據(jù)與文本挖掘、社會網(wǎng)絡(luò)分析與可視化、多維異構(gòu)數(shù)據(jù)的分析與可視化。在梳理基本專業(yè)理論知識的同時,本書注重與知識點相對應(yīng)的實際應(yīng)用案例展示,以便輔助讀者更直觀地理解理論知識。 本書著重培養(yǎng)學(xué)生綜合運用專業(yè)知識解決理論和實際問題的能力,可以作為高等院校電子商務(wù)、管理科學(xué)與工程、計算機科學(xué)與技術(shù)等專業(yè)的教材,也可以作為相關(guān)工作人員的參考用書。
張艷榮,博士,哈爾濱商業(yè)大學(xué)副教授,黑龍江省計算機學(xué)會青工委員。主持黑龍江省自然基金項目、黑龍江省高等教育教學(xué)改革項目等多項科研和教研項目,多次指導(dǎo)學(xué)生參加中國大學(xué)生計算機設(shè)計大賽、 "藍橋杯”程序設(shè)計競賽、ACM程序設(shè)計競賽等,并榮獲國家級二等獎、三等獎及省級一等獎、二等獎、三等獎等,多次被評為校級優(yōu)秀教師。出版《大學(xué)計算機基礎(chǔ)教程》《計算機網(wǎng)絡(luò)》等圖書。
第1 章 商業(yè)大數(shù)據(jù)分析 ...................................................................................................... 1
1.1 大數(shù)據(jù)處理與大數(shù)據(jù)分析 ..................................................................................... 1
1.1.1 大數(shù)據(jù)的基本概念、來源與應(yīng)用 .............................................................. 1
1.1.2 大數(shù)據(jù)處理 .................................................................................................. 6
1.1.3 大數(shù)據(jù)分析和計算 .................................................................................... 25
1.2 商業(yè)環(huán)境中的大數(shù)據(jù)分析 ................................................................................... 51
1.2.1 商業(yè)大數(shù)據(jù)的挑戰(zhàn) .................................................................................... 51
1.2.2 商業(yè)大數(shù)據(jù)處理的挑戰(zhàn) ............................................................................ 53
1.2.3 商業(yè)大數(shù)據(jù)的來源 .................................................................................... 54
1.2.4 商業(yè)價值 .................................................................................................... 55
1.3 商業(yè)大數(shù)據(jù)分析技術(shù)與方法 ............................................................................... 57
1.3.1 商業(yè)大數(shù)據(jù)分析技術(shù) ................................................................................ 57
1.3.2 商業(yè)大數(shù)據(jù)分析方法 ................................................................................ 59
1.4 商業(yè)大數(shù)據(jù)分析流程 ........................................................................................... 63
1.4.1 數(shù)據(jù)分析與數(shù)據(jù)挖掘的區(qū)別 .................................................................... 63
1.4.2 常見的數(shù)據(jù)分析挖掘工具 ........................................................................ 64
1.4.3 商業(yè)數(shù)據(jù)分析流程 .................................................................................... 66
第2 章 商業(yè)數(shù)據(jù)可視化 .................................................................................................... 70
2.1 數(shù)據(jù)可視化簡介 ................................................................................................. 70
2.1.1 數(shù)據(jù)可視化簡史 ........................................................................................ 70
2.1.2 數(shù)據(jù)可視化概述 ........................................................................................ 71
2.1.3 數(shù)據(jù)可視化的重要性 ................................................................................ 72
2.1.4 數(shù)據(jù)可視化技術(shù)及其特點 ........................................................................ 73
2.1.5 數(shù)據(jù)可視化的功能 .................................................................................... 73
2.1.6 數(shù)據(jù)可視化類型 ........................................................................................ 74
2.1.7 數(shù)據(jù)可視化標準 ........................................................................................ 76
2.1.8 商業(yè)信息可視化概述 ................................................................................ 76
2.2 感知與認知 ........................................................................................................... 77
2.2.1 視覺感知與認知 ........................................................................................ 77
2.2.2 顏色 ............................................................................................................ 86
2.2.3 視覺編碼原則 ............................................................................................ 94
2.3 數(shù)據(jù)可視化基礎(chǔ) ................................................................................................. 108
2.3.1 數(shù)據(jù)可視化流程 ...................................................................................... 108
2.3.2 數(shù)據(jù)可視化設(shè)計 ....................................................................................... 113
2.3.3 可視化中的數(shù)據(jù)類型 ............................................................................... 116
2.4 商業(yè)數(shù)據(jù)可視化方法 .......................................................................................... 118
2.4.1 數(shù)據(jù)可視化的展現(xiàn)形式 ........................................................................... 118
2.4.2 Tableau 大數(shù)據(jù)可視化技術(shù)簡介 ............................................................ 130
2.4.3 Power BI 大數(shù)據(jù)可視化技術(shù)簡介 .......................................................... 131
第3 章 非結(jié)構(gòu)化數(shù)據(jù)與文本挖掘 .................................................................................. 133
3.1 非結(jié)構(gòu)化數(shù)據(jù)與文本挖掘概述 ......................................................................... 133
3.1.1 非結(jié)構(gòu)化數(shù)據(jù)的挑戰(zhàn) .............................................................................. 133
3.1.2 文本挖掘及其過程 .................................................................................. 134
3.2 文本預(yù)處理 ......................................................................................................... 136
3.2.1 文本表示 .................................................................................................. 136
3.2.2 標引與中文分詞 ...................................................................................... 137
3.2.3 文本相似度計算 ...................................................................................... 138
3.3 文本分類算法 ..................................................................................................... 140
3.3.1 樸素貝葉斯算法 ...................................................................................... 140
3.3.2 Rocchio 算法 ............................................................................................ 141
3.3.3 K 最近鄰算法 .......................................................................................... 142
3.3.4 其他分類算法 .......................................................................................... 142
3.3.5 分類性能評價 .......................................................................................... 144
3.3.6 分類效果評價 .......................................................................................... 144
3.4 文本聚類 ............................................................................................................. 145
3.4.1 劃分法 ...................................................................................................... 145
3.4.2 層次法 ...................................................................................................... 146
3.4.3 神經(jīng)網(wǎng)絡(luò)法與遺傳算法 .......................................................................... 147
3.4.4 其他聚類算法 .......................................................................................... 148
3.4.5 聚類質(zhì)量評價 .......................................................................................... 149
第4 章 社會網(wǎng)絡(luò)分析與可視化 ...................................................................................... 151
4.1 社會網(wǎng)絡(luò)分析 ..................................................................................................... 151
4.1.1 社會網(wǎng)絡(luò)的相關(guān)概念 .............................................................................. 151
4.1.2 社會網(wǎng)絡(luò)的形式化表達 .......................................................................... 152
4.1.3 社會網(wǎng)絡(luò)分析指標 .................................................................................. 156
4.1.4 方法論特征 .............................................................................................. 159
4.2 社會網(wǎng)絡(luò)分析與可視化 ..................................................................................... 161
4.3 典型社會網(wǎng)絡(luò)可視化工具 ................................................................................. 163
4.3.1 UCINET ................................................................................................... 163
4.3.2 Pajek ......................................................................................................... 163
4.3.3 NWB ........................................................................................................ 163
4.3.4 NodeXL .................................................................................................... 164
4.3.5 Gephi ........................................................................................................ 164
4.4 社會網(wǎng)絡(luò)分析與可視化應(yīng)用案例 ..................................................................... 165
第5 章 多維異構(gòu)數(shù)據(jù)的分析與可視化 .......................................................................... 168
5.1 各種多維分析方法 ............................................................................................. 168
5.1.1 多維尺度分析法 ...................................................................................... 169
5.1.2 等距映射算法 .......................................................................................... 171
5.1.3 局部線性嵌入算法 .................................................................................. 173
5.1.4 主成分分析法 .......................................................................................... 175
5.2 異構(gòu)數(shù)據(jù)處理與分析 ......................................................................................... 177
5.3 多維異構(gòu)數(shù)據(jù)可視化 ......................................................................................... 179
5.4 多維異構(gòu)數(shù)據(jù)分析與可視化應(yīng)用案例 ............................................................. 180
參考文獻 .............................................................................................................................. 182