大數(shù)據(jù)項(xiàng)目管理 從規(guī)劃到實(shí)現(xiàn)
定 價(jià):59 元
- 作者:[美] 特德·馬拉斯卡(Ted Malaska)[美] 喬納森·塞德曼(Jonathan Seidman)
- 出版時(shí)間:2020/1/1
- ISBN:9787115457363
- 出 版 社:人民郵電出版社
- 中圖法分類(lèi):TP274
- 頁(yè)碼:139
- 紙張:
- 版次:01
- 開(kāi)本:16開(kāi)
本書(shū)提供了一個(gè)框架,從整體上介紹與大數(shù)據(jù)項(xiàng)目開(kāi)發(fā)相關(guān)的基本概念,幫助讀者評(píng)估大數(shù)據(jù)項(xiàng)目,理解成功的現(xiàn)代數(shù)據(jù)項(xiàng)目的基本要素。全書(shū)共8章,內(nèi)容包括現(xiàn)代數(shù)據(jù)項(xiàng)目的主要類(lèi)型、生命周期、風(fēng)險(xiǎn)管理、接口設(shè)計(jì)、分布式存儲(chǔ)系統(tǒng)、元數(shù)據(jù)管理、數(shù)據(jù)處理等。本書(shū)旨在讓讀者厘清思路,順利地從數(shù)據(jù)項(xiàng)目的規(guī)劃階段走到執(zhí)行階段,實(shí)現(xiàn)健壯、可維護(hù)的架構(gòu)和解決方案。
許多公司會(huì)在大數(shù)據(jù)項(xiàng)目的實(shí)施細(xì)節(jié)上下很多功夫,例如研究分布式處理引擎和數(shù)據(jù)分析算法。這并沒(méi)有錯(cuò),但不要因?yàn)橐豢脴?shù)而錯(cuò)過(guò)整片森林。本書(shū)將為你打開(kāi)更廣闊的視野,展示如何從大數(shù)據(jù)項(xiàng)目的規(guī)劃階段開(kāi)始,一步步走向成功。無(wú)論是首席信息官、首席技術(shù)官、項(xiàng)目經(jīng)理,還是架構(gòu)師和開(kāi)發(fā)人員,都能通過(guò)本書(shū)得到啟迪。
- 開(kāi)始規(guī)劃:思考大數(shù)據(jù)項(xiàng)目的主要類(lèi)型
- 評(píng)估和選擇數(shù)據(jù)管理解決方案
- 降低與技術(shù)、團(tuán)隊(duì)、需求相關(guān)的風(fēng)險(xiǎn)
- 探索良好的接口設(shè)計(jì)模式
- 為項(xiàng)目選擇合適的分布式存儲(chǔ)系統(tǒng)
- 規(guī)劃和實(shí)施元數(shù)據(jù)收集
- 使用數(shù)據(jù)管道確保數(shù)據(jù)完整性
- 根據(jù)并行處理引擎的特征評(píng)估處理框架
特德·馬拉斯卡(Ted Malaska),Capital One的企業(yè)架構(gòu)主管,曾在暴雪娛樂(lè)公司擔(dān)任全球視野工程總監(jiān),負(fù)責(zé)為《魔獸世界》《守望先鋒》《爐石傳說(shuō)》等游戲提供支持。他為眾多開(kāi)源項(xiàng)目貢獻(xiàn)過(guò)代碼,并與塞德曼等人合著有《Hadoop應(yīng)用架構(gòu)》。
喬納森·塞德曼(Jonathan Seidman),Cloudera云計(jì)算團(tuán)隊(duì)的軟件工程師。在加入Cloudera之前,他是Orbitz Worldwide大數(shù)據(jù)團(tuán)隊(duì)的技術(shù)負(fù)責(zé)人,負(fù)責(zé)為一個(gè)流量巨大的網(wǎng)站管理Hadoop集群。塞德曼與馬拉斯卡等人合著有《Hadoop應(yīng)用架構(gòu)》。
【譯者介紹】
薛命燈,InfoQ高級(jí)社區(qū)編輯,畢業(yè)于廈門(mén)大學(xué)軟件學(xué)院,擁有十余年軟件開(kāi)發(fā)和架構(gòu)經(jīng)驗(yàn),曾在多家大型軟件公司任職,另譯有《Kafka權(quán)威指南》等技術(shù)圖書(shū)。
前言 ix
第 1章 數(shù)據(jù)項(xiàng)目的主要類(lèi)型及考慮因素 1
1.1 數(shù)據(jù)項(xiàng)目的主要類(lèi)型 1
1.2 數(shù)據(jù)管道和數(shù)據(jù)暫存 3
1.2.1 主要考慮因素和風(fēng)險(xiǎn)管理 4
1.2.2 數(shù)據(jù)管道和數(shù)據(jù)暫存團(tuán)隊(duì)的人員組成 13
1.3 數(shù)據(jù)的處理和分析 14
1.3.1 主要考慮因素和風(fēng)險(xiǎn)管理 14
1.3.2 數(shù)據(jù)處理和分析團(tuán)隊(duì)的人員組成 17
1.4 應(yīng)用程序開(kāi)發(fā) 17
1.4.1 主要考慮因素和風(fēng)險(xiǎn)管理 18
1.4.2 應(yīng)用程序開(kāi)發(fā)團(tuán)隊(duì)的人員組成 22
1.5 小結(jié) 22
第 2章 評(píng)估和選擇數(shù)據(jù)管理解決方案 25
2.1 開(kāi)源項(xiàng)目的階段 26
2.1.1 孵化階段 27
2.1.2 發(fā)布階段 27
2.1.3 “治愈癌癥”階段 27
2.1.4 打破承諾階段 28
2.1.5 強(qiáng)化階段 29
2.1.6 企業(yè)階段 30
2.1.7 終結(jié)階段 30
2.2 開(kāi)源項(xiàng)目的常見(jiàn)生命周期 31
2.2.1 使產(chǎn)品起死回生 32
2.2.2 追隨者 33
2.3 評(píng)估基準(zhǔn)測(cè)試 34
2.4 技術(shù)選型的考慮因素 35
2.4.1 了解構(gòu)建塊 36
2.4.2 尋求建議 37
2.4.3 從分析師那里獲得見(jiàn)解 37
2.4.4 研究市場(chǎng)趨勢(shì) 37
2.5 小結(jié) 39
第3章 數(shù)據(jù)項(xiàng)目的風(fēng)險(xiǎn)管理 41
3.1 風(fēng)險(xiǎn)類(lèi)型 41
3.1.1 技術(shù)風(fēng)險(xiǎn) 41
3.1.2 團(tuán)隊(duì)風(fēng)險(xiǎn) 42
3.1.3 需求風(fēng)險(xiǎn) 42
3.2 風(fēng)險(xiǎn)管理 42
3.2.1 對(duì)架構(gòu)中的風(fēng)險(xiǎn)進(jìn)行分類(lèi) 42
3.2.2 技術(shù)風(fēng)險(xiǎn) 45
3.2.3 團(tuán)隊(duì)的優(yōu)勢(shì) 45
3.2.4 外部團(tuán)隊(duì)風(fēng)險(xiǎn) 47
3.2.5 需求風(fēng)險(xiǎn) 47
3.2.6 融會(huì)貫通 47
3.3 使用原型和PoC 50
3.3.1 找到兩三種方法 50
3.3.2 進(jìn)行PoC,然后丟棄 50
3.3.3 部署的注意事項(xiàng) 50
3.4 使用接口 51
3.5 盡早開(kāi)始構(gòu)建 52
3.6 頻繁測(cè)試并保留記錄 52
3.7 監(jiān)控和警報(bào) 53
3.8 溝通風(fēng)險(xiǎn) 54
3.8.1 合作并獲得信任 54
3.8.2 公開(kāi)風(fēng)險(xiǎn) 54
3.9 將風(fēng)險(xiǎn)作為談判工具 55
3.10 小結(jié) 55
第4章 接口設(shè)計(jì) 57
4.1 人體 57
4.1.1 人體與數(shù)據(jù)架構(gòu) 57
4.1.2 解耦 61
4.1.3 解耦的注意事項(xiàng) 63
4.1.4 專(zhuān)門(mén)化 64
4.2 什么造就了好的接口設(shè)計(jì) 64
4.2.1 合約 64
4.2.2 抽象 64
4.2.3 版本控制 65
4.2.4 防御 65
4.2.5 接口的文檔和命名 66
4.3 非功能性考慮因素 67
4.3.1 可用性 67
4.3.2 響應(yīng)時(shí)間 68
4.3.3 負(fù)載容量 68
4.3.4 使用測(cè)試來(lái)確定SLA 69
4.4 通用接口示例 69
4.4.1 發(fā)布–訂閱 69
4.4.2 異步請(qǐng)求–響應(yīng) 71
4.4.3 同步請(qǐng)求–響應(yīng) 72
4.5 小結(jié) 73
第5章 分布式存儲(chǔ)系統(tǒng) 75
5.1 分布式存儲(chǔ)系統(tǒng)的屬性 75
5.1.1 譜系 76
5.1.2 分區(qū) 77
5.1.3 處理數(shù)據(jù)變更 78
5.1.4 讀取路徑 80
5.1.5 可用性與一致性 84
5.1.6 主要用例 85
5.2 存儲(chǔ)系統(tǒng)細(xì)分 85
5.2.1 HDFS 86
5.2.2 S3和對(duì)象存儲(chǔ)系統(tǒng) 87
5.2.3 Apache HBase 89
5.2.4 Apache Cassandra 90
5.2.5 Elasticsearch和Apache Solr 94
5.2.6 新進(jìn)者:Apache Kudu和CockroachDB 95
5.2.7 內(nèi)存存儲(chǔ)系統(tǒng) 96
5.3 小結(jié) 99
第6章 企業(yè)元數(shù)據(jù) 101
6.1 為什么要關(guān)注元數(shù)據(jù) 102
6.1.1 數(shù)據(jù)可見(jiàn)性 102
6.1.2 數(shù)據(jù)之間的關(guān)系 103
6.1.3 數(shù)據(jù)監(jiān)管 104
6.2 數(shù)據(jù)架構(gòu)中的元數(shù)據(jù)類(lèi)型 105
6.2.1 靜態(tài)數(shù)據(jù) 106
6.2.2 動(dòng)態(tài)數(shù)據(jù) 107
6.2.3 數(shù)據(jù)源的元數(shù)據(jù) 110
6.2.4 有關(guān)數(shù)據(jù)處理的元數(shù)據(jù) 111
6.2.5 報(bào)告和儀表盤(pán) 112
6.3 元數(shù)據(jù)收集 112
6.3.1 聲明式元數(shù)據(jù)收集 113
6.3.2 發(fā)現(xiàn)式元數(shù)據(jù)收集 114
6.4 元數(shù)據(jù)管理實(shí)踐 115
6.5 小結(jié) 116
第7章 確保數(shù)據(jù)完整性 117
7.1 構(gòu)建數(shù)據(jù)管道 118
7.2 驗(yàn)證數(shù)據(jù)管道 123
7.2.1 行數(shù) 123
7.2.2 唯一計(jì)數(shù) 124
7.2.3 全字節(jié)比較 124
7.2.4 校驗(yàn)和比較 125
7.3 小結(jié) 126
第8章 數(shù)據(jù)處理 127
8.1 處理引擎的屬性 127
8.1.1 DAG管理 128
8.1.2 計(jì)算隔離 130
8.1.3 性能 132
8.1.4 容錯(cuò) 132
8.1.5 交互模型 135
8.1.6 批處理或流處理 135
8.2 數(shù)據(jù)處理演變史 136
8.3 小結(jié) 138
關(guān)于作者 139
關(guān)于封面 139