關于我們
書單推薦
新書推薦
|
大數據概論 讀者對象:學習大數據的科學技術人員及相關師生
《大數據概論》主要介紹大數據概論,內容包括大數據概述、科學研究第四范式、
分布系統(tǒng)設計的CAP 理論、NoSQL 數據庫、復雜網絡、MapReduce 分布編 程模型、大數據存儲、大數據分析、大數據挖掘、大數據可視化、大數據安 全、大數據機器學習、大數據推薦技術,以及數據科學與數據思維!洞髷祿耪摗穼 上述內容概念性地介紹,語言精練、內容全面。 更多科學出版社服務,請掃碼獲取。
目錄
前言 第1章 大數據概述 1 1.1 問題的提出 2 1.1.1 電子數據迅速增加 2 1.1.2 數據孕育巨大的經濟價值 3 1.1.3 數據是國家的核心資產 4 1.2 大數據的產生源泉 4 1.2.1 互聯(lián)網世界 5 1.2.2 物理世界 6 1.3 大數據的概念 7 1.3.1 數據容量 7 1.3.2 數據類型 8 1.3.3 價值密度 8 1.3.4 數據傳播速度 9 1.3.5 真實性 9 1.4 大數據的特性 9 1.4.1 價值 9 1.4.2 非結構性 9 1.4.3 不完備性 10 1.4.4 時效性 10 1.4.5 安全性 10 1.4.6 可靠性 10 1.5 大數據技術概述 10 1.5.1 大數據技術的主要內容 11 1.5.2 大數據的處理過程 12 1.5.3 大數據技術的特征 13 1.5.4 大數據的關鍵問題與關鍵技術 14 1.6 大數據應用趨勢 16 1.6.1 大數據細分市場 17 1.6.2 大數據推動企業(yè)發(fā)展 17 1.6.3 大數據分析的新方法出現(xiàn) 17 1.6.4 大數據與云計算高度融合 17 1.6.5 大數據一體設備陸續(xù)出現(xiàn) 17 1.6.6 大數據安全日益重視 18 1.7 大數據應用 18 1.7.1 判斷大數據應用成功的指標 18 1.7.2 大數據技術的應用 19 1.8 大數據的展望 22 1.8.1 資源與投入 23 1.8.2 工程技術 23 1.8.3 復雜網絡分析 23 1.8.4 涉及眾多領域 23 1.8.5 構建大數據生態(tài)環(huán)境 23 本章小結 23 第2章 科學研究四種范式 24 2.1 科學研究第一范式 25 2.1.1 科學實驗特點 25 2.1.2 科學實驗步驟 26 2.1.3 科學實驗分類 26 2.1.4 科學實驗構成 27 2.1.5 科學實驗程序 28 2.1.6 科學研究第一范式使用原則 29 2.2 科學研究第二范式 30 2.2.1 科學理論的特征 30 2.2.2 科學理論的結構 31 2.2.3 科學理論的價值 31 2.2.4 建立科學理論體系的一般方法 32 2.3 科學研究第三范式 33 2.3.1 概述 33 2.3.2 離散模型的模擬 34 2.3.3 連續(xù)系統(tǒng)的模擬 35 2.3.4 模擬語言 35 2.4 科學研究第四范式 36 2.4.1 數據密集型計算 36 2.4.2 格雷法則 38 2.4.3 第四范式的核心內容 40 本章小結 41 第3章 分布系統(tǒng)設計的CAP 理論 42 3.1 分布式系統(tǒng)的伸縮性 42 3.1.1 可伸縮性的概念 43 3.1.2 影響橫向擴展的主要因素 44 3.2 橫向擴展方案 47 3.2.1 可伸縮共享數據庫 47 3.2.2 對等復制的橫向擴展方案 48 3.2.3 鏈接服務器和分布式查詢 49 3.2.4 分布式分區(qū)視圖 50 3.2.5 數據依賴型路由的橫向擴展 50 3.3 CAP 理論 51 3.3.1 分布系統(tǒng)設計的核心系統(tǒng)需求 51 3.3.2 CAP 定理 53 3.4 BASE 模型 56 3.4.1 三個核心需求分析 56 3.4.2 ACID、BASE 與CAP 的關系 57 3.4.3 CAP 與延遲 58 3.4.4 CAP 理論的進一步研究 58 3.5 Web 分布式系統(tǒng)設計 60 3.5.1 系統(tǒng)核心需求 60 3.5.2 系統(tǒng)服務 61 3.5.3 冗余 62 3.5.4 分區(qū) 62 本章小結 64 第4章 NoSQL 數據庫 65 4.1 NoSQL 概述 65 4.1.1 非結構化問題 65 4.1.2 NoSQL 的產生 66 4.2 NoSQL 的特點與問題 67 4.2.1 NoSQL 的特點 67 4.2.2 NoSQL 問題 68 4.3 NoSQL 的主要存儲方式 69 4.3.1 鍵值存儲方式 69 4.3.2 文檔存儲方式 72 4.3.3 列存儲方式 73 4.3.4 圖形存儲方式 76 4.3.5 各種典型的存儲方式所對應的NoSQL 數據庫 77 4.4 常用的NoSQL 數據庫 78 4.4.1 Cassandra 78 4.4.2 Lucene/Solr 78 4.4.3 Riak 79 4.4.4 CouchDB 79 4.4.5 Neo4J 79 4.4.6 Oracle 的NoSQL 79 4.4.7 Hadoop 的HBase 79 4.4.8 Bigtable/ Accumulo/ Hypertable 80 4.4.9 DynamoDB 80 4.4.10 MongoDB 80 本章小結 82 第5章 復雜網絡 83 5.1 概述 83 5.1.1 復雜網絡概念 84 5.1.2 社會網絡概述 84 5.1.3 社會計算 86 5.2 社會網絡應用 87 5.2.1 知識獲取分析 87 5.2.2 知識類型與傳遞 88 5.2.3 知識創(chuàng)新 89 5.3 社會網絡分析 89 5.3.1 社會網絡分析概述 89 5.3.2 社會網絡分析的原理 90 5.3.3 社會網絡分析的特征 90 5.3.4 社會網絡分析的常用方法 90 5.4 社會網絡中的隱私保護 91 5.4.1 用戶隱私面臨的威脅 92 5.4.2 身份隱私攻擊與保護 93 5.4.3 面向用戶關系的攻擊及保護 93 5.4.4 萬維網用戶隱私保護規(guī)范 93 5.5 社會感知計算 94 5.5.1 社會感知計算概念 94 5.5.2 社會感知計算的主要內容 94 5.6 人類通信方式 95 5.6.1 通信方式的演化 95 5.6.2 六度分隔理論 96 5.6.3 150 法則 98 5.6.4 唯象理論與唯象方法 98 5.7 社交網站 99 5.7.1 社交網站概述 99 5.7.2 社交網站的作用 99 5.7.3 移動社交網絡 100 5.7.4 Web 2.0 網站 101 5.7.5 Web 2.0 開發(fā)平臺與必備要素 104 5.7.6 Web 3.0 網站 105 本章小結 105 第6章 MapReduce 分布編程模型 106 6.1 函數式編程范式 106 6.1.1 函數型語言 106 6.1.2 函數式編程 107 6.2 映射函數與化簡函數 108 6.2.1 映射與映射函數 108 6.2.2 化簡與化簡函數 109 6.3 MapReduce 計算 110 6.4 基于Hadoop 平臺的分布式計算 111 6.4.1 Hadoop 概述 111 6.4.2 分布式系統(tǒng)與Hadoop 112 6.4.3 SQL 數據庫和Hadoop 113 6.4.4 基于Hadoop 的分布式計算 114 本章小結 119 第7章 大數據存儲 120 7.1 大數據存儲概述 120 7.1.1 大數據存儲模型 121 7.1.2 大數據存儲問題 121 7.2 存儲方式 122 7.2.1 存儲介質 122 7.2.2 直接連接存儲 122 7.2.3 網絡連接存儲 124 7.2.4 存儲域網絡存儲 125 7.2.5 IP-SAN 126 7.2.6 三種存儲方式的比較 126 7.3 大數據的存儲 127 7.3.1 數據容量問題 127 7.3.2 大圖數據 127 7.3.3 分布式存儲的架構 129 7.3.4 數據存儲管理 130 7.4 數據云存儲 132 7.4.1 云存儲的意義與問題 133 7.4.2 技術措施 133 7.5 數據存儲的可靠性 135 7.5.1 磁盤與磁盤陣列的可靠性 136 7.5.2 文件系統(tǒng)的可靠性 138 本章小結 138 第8章 大數據分析 139 8.1 數據分析概述 140 8.1.1 數據分析的概念 140 8.1.2 數據分析的目的與意義 140 8.1.3 數據分析的基本方法 141 8.1.4 數據分析的類型 146 8.1.5 數據分析的步驟 147 8.2 大數據分析基礎 147 8.2.1 可視化分析 148 8.2.2 數據挖掘 148 8.2.3 大數據預測分析 148 8.2.4 語義引擎 148 8.2.5 數據質量和數據管理 148 8.2.6 大數據的離線與在線分析 148 8.3 大數據預測分析 149 8.3.1 大數據預測分析關鍵因素 150 8.3.2 大數據預測分析演進方向 150 8.3.3 大數據預測分析相關問題 151 8.3.4 輿情監(jiān)測與分析 152 8.3.5 輿情報告圖表制作 153 8.4 大數據分析應用 154 8.4.1 為客戶提供服務 154 8.4.2 優(yōu)化業(yè)務流程 154 8.4.3 改善生活 155 8.4.4 提高醫(yī)療條件 155 8.4.5 提高體育成績 155 8.4.6 優(yōu)化機器和設備性能 155 8.4.7 改善安全和執(zhí)法 155 8.4.8 改進和優(yōu)化城市 155 8.4.9 金融交易 156 8.4.10 電信業(yè)務 156 8.4.11 銷售 156 8.5 大數據分析平臺與工具 156 8.5.1 大數據分析基礎平臺 156 8.5.2 大數據分析的工具 158 本章小結 160 第9章 大數據挖掘 161 9.1 數據挖掘概述 162 9.1.1 數據挖掘的定義 162 9.1.2 數據挖掘的分類 163 9.1.3 數據挖掘的技術 163 9.2 數據挖掘對象與過程 164 9.2.1 數據挖掘對象 164 9.2.2 數據挖掘過程 164 9.2.3 數據挖掘過程工作量 165 9.3 數據挖掘的常用方法 166 9.3.1 神經網絡方法 166 9.3.2 遺傳算法 166 9.3.3 決策樹方法 166 9.3.4 粗集方法 166 9.3.5 覆蓋正例排斥反例方法 167 9.3.6 統(tǒng)計分析方法 167 9.3.7 模糊集方法 167 9.4 數據挖掘的幾個問題 167 9.4.1 數據挖掘與數據分析的區(qū)別 167 9.4.2 數據挖掘與數據倉庫 167 9.4.3 數據挖掘和OLAP 的比較 168 9.4.4 數據挖掘與人工智能 169 9.4.5 軟硬件發(fā)展對數據挖掘的影響 169 9.4.6 數據挖掘和統(tǒng)計分析的區(qū)別 169 9.4.7 Web 挖掘和數據挖掘的區(qū)別 170 9.5 關聯(lián)規(guī)則 170 9.5.1 關聯(lián)規(guī)則定義 170 9.5.2 關聯(lián)規(guī)則分類 171 9.5.3 關聯(lián)規(guī)則的挖掘過程 171 9.5.4 關聯(lián)規(guī)則應用 172 9.6 數據挖掘的經典算法 172 9.6.1 Apriori 算法集 173 9.6.2 劃分算法 173 9.6.3 FP-樹頻集算法 173 9.7 大數據挖掘技術 173 9.7.1 大數據挖掘關鍵技術 174 9.7.2 大數據挖掘策略 176 9.8 大數據挖掘應用 176 9.8.1 市場營銷 177 9.8.2 銷售礦泉水 178 9.8.3 物流 178 9.8.4 CRM 179 本章小結 181 第10章 大數據可視化 182 10.1 數據可視化技術概述 182 10.1.1 數據可視化技術的產生史 183 10.1.2 數據可視化技術適用范圍 183 10.1.3 信息展現(xiàn)方式 183 10.1.4 數據、信息及知識 185 10.1.5 交互式處理 185 10.2 科學可視化 185 10.2.1 科學可視化的概念與過程 186 10.2.2 大數據科學可視化的技術 186 10.3 信息可視化 189 10.3.1 信息可視化概念 189 10.3.2 知識發(fā)現(xiàn) 190 10.3.3 知識發(fā)現(xiàn)工具 191 10.3.4 信息可視化技術的應用 191 10.4 數據可視化應用 192 10.4.1 數據可視化的概念 192 10.4.2 數據可視化技術的特點 192 10.4.3 數據可視化技術的相關概念 193 10.4.4 數據可視化技術的應用 193 10.5 大數據可視分析 194 10.5.1 大數據可視分析的概念 195 10.5.2 大數據可視分析的方法 195 本章小結 198 第11章 大數據安全 199 11.1 數據安全概述 199 11.1.1 數據安全的定義 200 11.1.2 數據處理與存儲的安全 200 11.1.3 數據安全的基本特點 200 11.1.4 威脅數據安全的主要因素 201 11.1.5 安全制度與防護技術 202 11.1.6 典型應用 203 11.2 安全措施實現(xiàn) 208 11.2.1 網絡分段 208 11.2.2 數據鏈路層的物理分段 208 11.2.3 VLAN 的劃分 208 11.3 電子商務安全 209 11.3.1 計算機網絡安全的內容 209 11.3.2 計算機商務交易安全的內容 210 11.4 大數據安全 211 11.4.1 大數據的不安全因素 211 11.4.2 大數據安全的關鍵問題 212 11.4.3 大數據安全措施 213 11.5 云安全 214 11.5.1 云計算中用戶的安全需求 214 11.5.2 威脅模型 215 11.5.3 云安全的支撐技術問題 215 11.5.4 用戶數據隱私保護 216 11.5.5 云計算執(zhí)行環(huán)境的可信性 216 11.5.6 資源共享問題 217 本章小結 217 第12章 大數據機器學習 218 12.1 機器學習概述 219 12.1.1 機器學習的產生與發(fā)展 219 12.1.2 機器學習的概念 219 12.1.3 機器學習理論及研究 220 12.1.4 機器學習系統(tǒng)的結構 221 12.2 機器學習類型 222 12.2.1 基于學習策略的學習分類 222 12.2.2 基于應用領域的學習分類 223 12.2.3 基于綜合因素的學習分類 223 12.3 知識表示形式 224 12.4 大數據機器學習 225 12.4.1 大數據機器學習的特點 226 12.4.2 大數據機器學習的評測指標 227 12.5 大數據機器學習的應用 228 12.5.1 基于大數據的空氣質量推斷 228 12.5.2 人與建筑的關系分析 228 12.5.3 針對全球問題的預測模型 229 12.5.4 全球地表覆蓋制圖可視化與數據分析 229 本章小結 229 第13章 大數據推薦技術 230 13.1 概述 231 13.1.1 推薦系統(tǒng)的產生與發(fā)展 231 13.1.2 推薦系統(tǒng)的概念 231 13.2 推薦系統(tǒng)架構 232 13.2.1 用戶特征提取模塊 232 13.2.2 相關物品檢索模塊 232 13.2.3 推薦結果排序模塊 232 13.3 推薦系統(tǒng)類型 232 13.3.1 基于用戶行為數據推薦 232 13.3.2 基于用戶標簽數據推薦 233 13.3.3 基于上下文信息推薦 233 13.3.4 基于社交網絡數據推薦 233 13.4 推薦系統(tǒng)的評判標準 234 13.5 推薦算法 235 13.5.1 基于人口統(tǒng)計學的推薦算法 235 13.5.2 基于內容的推薦算法 235 13.5.3 協(xié)同過濾推薦算法 236 13.5.4 混合推薦算法 238 13.6 推薦模式與系統(tǒng) 238 13.6.1 推薦模式 238 13.6.2 下一代推薦系統(tǒng) 239 13.7 大數據推薦技術 240 13.7.1 數據稀疏性 241 13.7.2 大數據推薦系統(tǒng)冷啟動 241 13.7.3 多樣性與精確性的兩難命題 241 13.7.4 增量計算 242 13.7.5 推薦系統(tǒng)的魯棒性 242 13.7.6 推薦系統(tǒng)效果評估 242 13.7.7 用戶行為模式的挖掘和利用 242 13.7.8 用戶界面與用戶體驗 243 13.7.9 多維數據的交叉利用 243 13.7.10 社會推薦 244 13.8 大數據人才推薦系統(tǒng) 244 本章小結 245 第14章 數據科學與數據思維 246 14.1 數據科學概述 246 14.1.1 數據科學定義與信息化過程 246 14.1.2 數據科學研究內容 247 14.1.3 數據科學的研究過程與體系框架 248 14.2 大數據研究方式 249 14.2.1 大數據分析的是全面的數據 249 14.2.2 重視數據的復雜性與弱化精確性 251 14.2.3 關注數據的相關性而非因果關系 251 14.3 數據專家 252 14.3.1 數據科學家 252 14.3.2 數據工程師 254 14.4 數據思維 254 14.4.1 思維的概念與特征 254 14.4.2 思維的形成 256 14.4.3 計算思維 258 14.4.4 網絡思維 260 14.4.5 系統(tǒng)思維 263 14.4.6 大數據思維 264 本章小結 264 參考文獻 265
第 1章大數據概述本章主要內容
大數據概述問題的提出電子數據迅速增加數據孕育巨大的經濟價值數據是國家的核心資產 大數據的產生源泉互聯(lián)網世界物理世界大數據的概念 數據容量巨大數據類型多價值密度低數據傳播速度 大數據的性質 價值非結構性不完備性時效性安全性可靠性 大數據技術概述 大數據技術的主要內容大數據的處理過程大數據技術的特征大數據關鍵問題與關鍵技術大數據應用趨勢大數據細分市場大數據推動企業(yè)發(fā)展大數據分析的新方法出現(xiàn)大數據與云計算高度融合大數據一體設備陸續(xù)出現(xiàn)大數據安全日益重視 大數據應用判斷大數據應用成功的指標大數據技術的應用 大數據的展望 資源與投入工程技術復雜網絡分析涉及眾多領域構建大數據生態(tài)環(huán)境 需求是科學技術發(fā)展的原動力。目前,大數據問題的出現(xiàn)與研究已經成為了計算機科學與技術研究的新熱點,并顯示出日益強大的吸引力,科學大數據的出現(xiàn)催生了數據密集型知識發(fā)現(xiàn)的科學研究第四范式的出現(xiàn)。對于信息領域,大數據帶來的不僅是機遇,還有一系列的困難和挑戰(zhàn)。目前,大數據技術與應用展現(xiàn)出銳不可當的強大生命力,科學界與企業(yè)界寄予無比的厚望。大數據成為繼 20世紀末、21世紀初互聯(lián)網蓬勃發(fā)展以來的又一輪 IT工業(yè)革命。 1.1 問題的提出 在全世界范圍內,以電子方式存儲的數據(又簡稱為電子數據)總量空前巨大。在 2011年電子數據總量已達到 1.8ZB(1ZB=1024PB),較 2010年同期提高超過 1ZB,統(tǒng)計結果表明,每經過 2年就可以增加 1倍,預計到 2020年可達到 35ZB,如圖 1-1所示。面對數據增長的速度迅猛提升,數據量的飛速增加,對大量電子數據的高效存儲、高效傳輸與快速的處理是必須面對的研究問題。 圖 1-1 全球數據創(chuàng)建及復制的數據總量預測 1.1.1 電子數據迅速增加 物聯(lián)網、云計算、移動互聯(lián)網、車聯(lián)網、手機、平板電腦、個人計算機( PC)、氣候信息、公開的信息,如雜志、報紙和文章、交易記錄、網絡日志、病歷、軍事監(jiān)控、視頻和圖像、檔案及大型電子商務,以及遍布地球各個角落的各種各樣的傳感器是數據來源或者承載的方式不斷更新與發(fā)展、大型科學研究設備產生的數據,以及社交媒體的快速發(fā)展,構成了大數據持續(xù)產生的生態(tài)環(huán)境。尤其是近年來,隨著互聯(lián)網技術的發(fā)展,來自人們的日常生活,特別是來自互聯(lián)網服務而產生的大量數據迅猛增加。據不完全統(tǒng)計,互聯(lián)網當前包含 93億多個頁面,80%~85%的數據是存儲在數據庫的文本中。互聯(lián)網一天產生的全部內容可以刻滿 1.68億張 DVD,發(fā)出的郵件有 2940億封之多,發(fā)出的社區(qū)帖子達 200萬個(相當于《時代》雜志 770年的文字量),賣出的手機為 37.8萬臺,高于全球每天出生的嬰兒數量 37.1萬……從數據統(tǒng)計角度來看,電子數據量迅速增加。預計中國數據技術和服務市場未來 5年的復合增長率將達 51.4%,其中增長率最高的是存儲市場,將達 60.8%,服務器市場的增長率則是 38.3%,遠遠高于其他產品相關的市場。 1.1.2 數據孕育巨大的經濟價值 數據本身是無意義的,而通過統(tǒng)計、分類、萃取、特征抽取等一系列技術手段,可以從數據中產生信息與知識。數據是重要的戰(zhàn)略資源,隱含巨大的經濟價值,因此已經引起科學界和企業(yè)界的高度重視。有效地組織和使用數據,將對經濟發(fā)展產生巨大的推動作用。大數據出現(xiàn)孕育著前所未有的機遇。對大數據的交換、整合和分析,可以發(fā)現(xiàn)新的知識,創(chuàng)造新的價值。 越來越多的企業(yè)等機構意識到數據正在成為最重要的資產,數據分析能力正在成為核心競爭力。經過了由 PC成功轉向了軟件和服務,而這次將遠離服務與咨詢,更多地專注于因數據分析而帶來的全新業(yè)務增長點。數據將成為各行業(yè)中決定勝負的根本因素,最終數據將成為人類至關重要的自然資源。各著名的大型公司已經致力于開發(fā)自己的大數據處理和存儲系統(tǒng),目前已經到了數據化運營的黃金時期,如何整合這些數據成為未來的關鍵任務。 在互聯(lián)網、電信、金融等行業(yè),幾乎已經到了數據就是業(yè)務本身的地步。物聯(lián)網、社交網絡等新的互聯(lián)網技術在為人們帶來便利的同時,也產生了大量的數據。如何有效地存儲和查詢這些數據,如何通過數據挖掘,從數據中獲得有用的信息,為用戶提供好的用戶體驗,增強企業(yè)的競爭力,是一個挑戰(zhàn)。研究表明,數字領域存在著 1.8萬億 GB的數據,企業(yè)數據正在以 55%的速度逐年增長。目前,兩天就能創(chuàng)造出自人類文明誕生以來到 2003年所產生的數據總量。大數據已經成為重要的時代特征,充分利用大數據可幫助全球個人定位服務提供商增加 1000億美元的收入,幫助歐洲公共部門的管理每年提升 2500億美元產值,幫助美國醫(yī)療保健行業(yè)每年提升 3000億美元產值,并可幫助美國零售業(yè)獲得 60%以上的凈利潤增長率。由此可見,充分使用大數據和挖掘大數據商業(yè)價值將為行業(yè)企業(yè)帶來強大經濟效益與競爭力。 大數據既是對信息技術發(fā)展的高度抽象和概括,同時也體現(xiàn)了信息技術服務于數據蘊藏的巨大價值。大數據給數據的采集、存儲、維護、共享帶來了具有研究意義的現(xiàn)象和挑戰(zhàn),但更多的意義是可以處理、分析并使用大量數據,通過這些數據的處理、整合和分析,可以發(fā)現(xiàn)新知識、創(chuàng)造新價值,帶來大知識、大科學和大發(fā)展,逐漸走向創(chuàng)新社會化的新信息時代。 大數據全生命周期可以劃分為“數據產生—數據采集—數據傳輸—數據存儲—數據處理—數據分析—數據發(fā)布、展示和應用—產生新數據”等階段。已經形成了大數據的“生產與集聚層—組織與管理層—分析與發(fā)現(xiàn)層—應用與服務層”的產業(yè)鏈,而 IT基礎設施為這各環(huán)節(jié)提供基礎支撐。 據統(tǒng)計, 2012年市場規(guī)模達到 4.5億元, 2016年估計可達到百億規(guī)模,如圖 1-2所示。 圖 1-2 中國大數據應用市場規(guī)模與增長 1.1.3 數據是國家的核心資產 一個國家擁有數據的規(guī)模、活性及解釋運用的能力將成為綜合國力的重要組成部分,對數據的占有和控制,甚至將成為陸權、海權、空權之外的另一種國家核心資產。聯(lián)合國也在 2012年發(fā)布了大數據政務白皮書,指出大數據對于聯(lián)合國和各國政府是一個歷史性的機遇,通過使用極為豐富的數據資源,對社會經濟進行前所未有的實時分析,幫助政府更好地響應社會和經濟運行。 數據為王的大數據時代已經到來,對數據的占有和控制也將成為國家間和企業(yè)間新的爭奪點。大數據技術的專業(yè)人才,特別是數據分析復合型人才的稀缺將會影響該市場的發(fā)展。 在技術層面上,大數據、海量數據與超大規(guī)模數據并無本質的區(qū)別,它們都是指用傳統(tǒng)處理方法無法處理的大量數據。通過對大數據的高速有效處理,可以發(fā)現(xiàn)數據中蘊藏的規(guī)律與規(guī)則,進而為各種關鍵決策提供依據與指導,正確的預測與決策將導致巨大財富的產生。技術與工具密不可分,目前常用的數據處理技術與工具是小數據處理技術與工具,一些海量數據處理方法與工具是一種過度性的方法與工具,大數據處理技術與工具的研究是一項有理論意義和實際價值的工作。簡言之,大數據技術就是從各種各樣類型的數據中,快速獲得智慧的技術。信息要能轉化成智慧,至少要滿足以下三個標準。 1.可破譯性 可破譯性是大數據時代特有的問題,但非結構化的數據不是一定都可破譯。例如,記錄了某客戶在網站上三次翻頁的時間間隔分別是 5s、4s、15s,卻忘記標注這三個時間代表什么,也就是說,知道這些數據是信息,卻不可破譯,所以不可能成為知識。 2.關聯(lián)性 關聯(lián)性即是相關性。無關的信息可以被看成噪聲。 3.新穎性 新穎性是指無法僅僅根據擁有的數據和信息進行判斷。例如,某電子商務公司通過一組數據/信息,分析出了客戶愿意為當天送貨的產品多支付 10元錢,然后又通過另一組完全獨立的數據/信息得到了同樣的內容,這樣的情況下,后者就不具備新穎性。但是,很多時候,只有在處理了大量的數據和信息以后,才能判斷它們是否具有新穎性。 1.2 大數據的產生源泉 大數據是人類活動的產物,來自人們改造客觀世界的過程中,是生產與生活在網絡空間的投影。信息爆炸是對信息快速發(fā)展的一種逼真的描述,形容信息發(fā)展的速度如同爆炸一般席卷整個地球。在 20世紀 40~50年代,信息爆炸主要指的是科學文獻的快速增長;而經過 50年的發(fā)展,到 20世紀 90年代,由于計算機和通信技術廣泛應用,信息爆炸主要指的是所有社會信息快速增長,包括正式交流過程和非正式交流過程所產生的電子式的和非電子式的信息,而到 21世紀的今天,信息爆炸是由于數據洪流的產生和發(fā)展所造成的。在技術方面,新型的硬件與數據中心、分布式計算、云計算、大容量數據存儲與處理技術、社會化網絡、移動終端設備、多樣化的數據采集方式使大數據的產生和記錄成為可能。在用戶方面,日益人性化的用戶界面、信息行為模式都容易作為數據而記錄,用戶既可成為數據的制造者,也可以成為數據的使用者。可以看出,隨著云計算、物聯(lián)網計算和移動計算的發(fā)展,世界上所產生的新數據,包括位置、狀態(tài)、思考、過程和行動等產生的數據都能夠匯入數據洪流,導致數據洪流席卷互聯(lián)網。 歸納起來,大數據主要來自物理世界與互聯(lián)網世界。 1.2.1 互聯(lián)網世界 大數據時代,需要更加全面的數據來提高預測的準確度,因此需要更多廉價、便捷、自動的數據生產工具。 大數據是計算機和互聯(lián)網結合的產物,計算機實現(xiàn)了數據的數字化,互聯(lián)網實現(xiàn)了數據的網絡化;兩者結合才賦予了大數據生命力。隨著互聯(lián)網如同空氣、水、電一樣無處不在地滲透到我們的工作和生活,加上移動互聯(lián)網、物聯(lián)網、可穿戴聯(lián)網設備的普及,新的數據正在以指數級別的速度產生,目前世界上 90%的數據是在互聯(lián)網出現(xiàn)以后迅速產生的。 大數據來自人類社會,尤其互聯(lián)網的發(fā)展為數據的存儲、傳輸與應用創(chuàng)造了基礎與環(huán)境。依據基于唯象假設的六度分割理論而建立的社交網絡服務( Social Network Service,SNS),以認識朋友的朋友為基礎,擴展自己的人脈; Web 2.0網站建立的社交網絡,用戶既是網站信息的使用者,也是網站信息的制作者。社交網站記錄人們之間的交互,搜索引擎記錄人們的搜索行為和搜索結果,電子商務網站記錄了人們購買商品的喜好,微博網站記錄了人們所產生的即時想法和意見,圖片視頻分享網站記錄了人們的視覺觀察,百科全書網站記錄了人們對抽象概念的認識,幻燈片分享網站記錄了人們的各種正式和非正式的演講發(fā)言,機構知識庫和開放獲取期刊記錄了學術研究成果等。歸納起來,來自互聯(lián)網的數據可以劃分為下述六種類型。 1.視頻 視頻圖像是大數據的主要來源之一,電影、電視節(jié)目可以產生大量的視頻圖像,各種室內外的視頻攝像頭晝夜不停地產生巨量的視頻圖像。視頻圖像以每秒幾十幀的速度連續(xù)記錄運動著的物體,一個小時的標準清晰視頻經過壓縮后,所需的存儲空間為 GB數量級,對于高清晰度視頻所需的存儲空間就更大了。 2.圖片與照片 圖片與照片也是大數據的主要來源之一,截至 2011年 9月,用戶向臉譜( Facebook)上傳了 1400億張以上的照片,臉譜是美國最大的一個社交網站,類似于中國的新浪微博。如果拍攝者為了保存拍攝時的原始文件,平均每張照片大小為 1MB,則這些照片的總數據量就是 140G×1MB=140PB,如果單臺服務器磁盤容量為 10TB,則存儲這些照片需要 14000臺服務器,而且這些上傳的照片僅僅是人們拍攝到的照片的很少一部分。此外,許多遙感系統(tǒng)一天 24小時不停地拍攝并產生大量照片。 3.音頻 DVD光盤采用了雙聲道 16位采樣,采樣頻率為 44.1kHz,可達到多媒體欣賞水平。如果某音樂劇的長度為 5.5min,計算其占用的存儲容量為 存儲容量 =(采樣頻率 ×采樣位數 ×聲道數 ×時間) / 8 = (44.1×1000×16×2×5.5×60)/8 = 12.6MB 4.日志 網絡設備、系統(tǒng)及服務程序等,在運行時都會產生 log的事件記錄,每一行日志都記載著日期、時間、使用者及動作等相關操作的描述。Windows網絡操作系統(tǒng)設有各種各樣的日志文件,如應用程序日志、安全日志、系統(tǒng)日志、 Scheduler服務日志、 FTP日志、WWW日志、DNS服務器日志等,并且根據系統(tǒng)開啟的服務的
你還可能感興趣
我要評論
|