內 容 提 要
本書全面系統(tǒng)地介紹了大數據的測試技術與質量體系建設。本書共11章,第1~4章涵蓋認識大數據,大數據技術生態(tài),數據倉庫的設計與構建,以及大數據項目開發(fā)流程;第5~7章講解大數據測試方法、大數據測試實踐和數據質量管理;第8~10章介紹大數據測試平臺實踐、數據治理平臺建設,以及DataOps的理念與實踐;第11章提供大數據測試學習路線。附錄列出了大數據技術經典面試題。
本書適合想要了解大數據技術的讀者,以及想要學習和掌握大數據測試與大數據開發(fā)的從業(yè)者。通過閱讀本書,測試工程師可以系統(tǒng)地學習大數據技術基礎、大數據開發(fā)和大數據測試等知識;大數據開發(fā)工程師可以借鑒大數據質量保障的方法,拓寬數據工程實踐的思路;技術專家和技術管理者可以了解大數據質量保障體系、數據治理建設和DataOps實踐等內容。
大數據測試實踐秘籍
36位來自字節(jié)跳動、知乎、阿里、百度、騰訊、、奇虎360、小米、網易等大廠專業(yè)技術人員聯袂推薦。
通俗易懂,精選22個大數據測試要點,從零入手,系統(tǒng)講解大數據測試。
內容豐富,涵蓋6大技術主題,大數據技術生態(tài)、數據倉庫、大數據開發(fā)、大數據測試、數據治理、DataOps。
場景典型,詳細解釋3個主流數據應用場景問題,數據分析、數據挖掘、數據可視化。深度剖析BI報表、風控模型產品、用戶行為分析平臺的技術原理、工程架構,并輸出了全鏈路的質量保障方案。
艾輝,中國人民大學概率論與數理統(tǒng)計專業(yè)碩士,《機器學習測試入門與實踐》作者之一。目前,擔任融360技術總監(jiān),主要負責AI風控產品、用戶產品和基礎架構的質量保障工作。曾在阿里本地生活擔任高級技術經理,負責用戶產品、新零售產品的質量保障工作。擁有9年多的測試開發(fā)工作經驗,曾多次受邀在行業(yè)技術大會(如MTSC、GITC、Top100、TiD、A2M和TICA等)上做主題分享。對大數據、機器學習測試技術有深刻理解,并長期專注于質量保障與工程效能領域。
陳高飛,東北大學計算機技術專業(yè)碩士,《機器學習測試入門與實踐》作者之一。目前,擔任融360測試開發(fā)工程師,主要從事機器學習方向的測試開發(fā)工作。擅長白盒測試、大數據測試和模型測試,在工具平臺開發(fā)方面有豐富的實踐經驗。
郝嶸,北京信息科技大學自動化專業(yè)碩士,《機器學習測試入門與實踐》作者之一。目前,擔任融360高級測試開發(fā)工程師,主要負責大數據方向的測試開發(fā)工作。擅長Python開發(fā)、大數據測試和機器學習測試,主導了多個工具平臺的開發(fā),在大數據質量保障方面有豐富的實踐經驗。
雷天鳴,哈爾濱理工大學計算機科學與技術專業(yè)碩士,《機器學習測試入門與實踐》作者之一。目前,擔任融360測試開發(fā)工程師,主要從事機器學習方向的測試開發(fā)工作。擅長大數據測試、特征測試和模型算法評測等,對金融風控業(yè)務有深刻理解。
李曼曼,融360高級測試開發(fā)工程師,《機器學習測試入門與實踐》作者之一。擁有近11年的測試開發(fā)工作經驗,主導了多個工具平臺的開發(fā)和大型項目的測試工作。擅長白盒測試、性能測試、自動化測試、持續(xù)集成和工程效能,在大數據和特征模型測試方面有豐富的實踐經驗。
馬綿,陜西科技大學網絡工程專業(yè)學士,融360測試開發(fā)工程師。目前主要從事服務端測試開發(fā)工作,擅長自動化測試、安全測試,在服務穩(wěn)定性保障方面有豐富的實踐經驗。
孫冰妍,東北大學通信與信息系統(tǒng)專業(yè)碩士,融360測試開發(fā)工程師。目前主要從事服務端測試開發(fā)工作,擅長白盒測試、自動化測試、性能測試、安全測試和持續(xù)集成。參與了多個工具平臺的開發(fā),并主導了多個大型項目的測試工作。對大數據測試技術有深刻理解。
孫金娟,山西財經大學計算機科學與技術專業(yè)學士,《機器學習測試入門與實踐》作者之一。目前,擔任融360測試開發(fā)工程師,有近9年的Java開發(fā)、測試開發(fā)工作經驗。擅長大數據測試和工具平臺開發(fā),對機器學習、特征模型測試有深刻理解。
張咪,北京交通大學通信與信息系統(tǒng)專業(yè)碩士,《機器學習測試入門與實踐》作者之一。目前,擔任融360測試經理,主要負責用戶產品的質量保障工作,曾負責基礎架構、SRE(Site Reliability Engineering,網站可靠性工程)等方面的測試開發(fā)工作。在自動化測試、服務穩(wěn)定性、專項測試和工程效能等方面有豐富的實踐經驗,曾受邀在行業(yè)技術大會(如MTSC、A2M等)做主題分享。對大數據、機器學習測試有深刻的理解,并在這些領域擁有豐富的實踐經驗。
張朋周,中國地質大學計算機科學與技術專業(yè)碩士,《機器學習測試入門與實踐》作者之一。目前,擔任融360高級測試開發(fā)工程師,曾在百度從事搜索業(yè)務測試開發(fā),有近9年的開發(fā)測試工作經驗。目前,主要負責機器學習方向的測試開發(fā)工作,主導了多個工具平臺的開發(fā),在數據質量保障、模型評估平臺方面有豐富的實踐經驗。
目 錄
第 1章 認識大數據/1
1.1 大數據概述/1
1.2 大數據的發(fā)展/2
1.3 大數據的應用/4
1.3.1 互聯網領域/4
1.3.2 物流領域/5
1.3.3 教育領域/6
1.3.4 金融領域/7
1.3.5 電信領域/7
1.4 本章小結/8
第 2章 大數據技術生態(tài)/9
2.1 大數據技術生態(tài)總覽/9
2.2 大數據采集技術/10
2.3 大數據存儲技術/10
2.3.1 分布式文件系統(tǒng):HDFS/10
2.3.2 海量數據列式存儲: HBase/13
2.3.3 其他數據存儲技術/18
2.4 大數據計算分析技術/19
2.4.1 批處理計算的基石:MapReduce/19
2.4.2 流計算的代表:Storm、Spark Streaming和Flink/21
2.4.3 OLAP引擎:Hive、Impala和Presto/24
2.5 大數據管理調度技術/30
2.5.1 分布式集群資源調度框架:YARN/30
2.5.2 容器集群管理系統(tǒng):Kubernetes/32
2.5.3 大數據的"動物園管理員":ZooKeeper/33
2.5.4 常用的工作流調度平臺:Azkaban、Oozie和Airflow/34
2.6 大數據商業(yè)產品/36
2.7 本章小結/38
第3章 數據倉庫的設計與構建/39
3.1 數據倉庫概述/39
3.1.1 什么是數據倉庫/39
3.1.2 數據倉庫的發(fā)展過程/41
3.1.3 數據倉庫與數據集市、數據湖、數據中臺的區(qū)別/43
3.2 數據倉庫設計/44
3.2.1 架構分層設計/44
3.2.2 數據模型設計/46
3.3 數據倉庫構建/50
3.3.1 數據倉庫的構建方法與評價標準/50
3.3.2 數據倉庫實例/51
3.4 本章小結/58
第4章 大數據項目開發(fā)流程/59
4.1 大數據項目開發(fā)概覽/59
4.2 數據的采集與存儲/60
4.2.1 服務端日志采集/61
4.2.2 客戶端日志采集/62
4.2.3 數據同步/64
4.2.4 大數據存儲/66
4.3 大數據計算/67
4.4 大數據監(jiān)控/71
4.4.1 數據監(jiān)控/71
4.4.2 運維監(jiān)控/72
4.5 大數據項目開發(fā)案例/73
4.5.1 項目背景介紹/74
4.5.2 項目需求分析/74
4.5.3 項目開發(fā)流程/76
4.6 本章小結/83
第5章 大數據測試方法/84
5.1 大數據測試概述/84
5.1.1 什么是大數據測試/84
5.1.2 大數據測試與傳統(tǒng)數據測試/84
5.2 大數據測試類型/85
5.2.1 功能測試/85
5.2.2 性能測試/89
5.2.3 其他非功能性測試/93
5.3 大數據測試流程/94
5.4 大數據基準測試/96
5.4.1 大數據基準測試簡介/97
5.4.2 大數據基準測試的步驟/97
5.4.3 大數據基準測試工具/98
5.5 大數據ETL測試/100
5.5.1 大數據ETL測試類型/100
5.5.2 大數據ETL測試場景/103
5.5.3 大數據ETL測試工具/107
5.6 大數據測試總結/108
5.6.1 大數據測試中的典型問題/108
5.6.2 大數據測試經驗總結/112
5.6.3 大數據測試面臨的挑戰(zhàn)/113
5.7 本章小結/113
第6章 大數據測試實踐/114
6.1 BI報表測試/114
6.1.1 BI工具簡介/114
6.1.2 Tableau簡介/115
6.1.3 BI報表測試實踐/120
6.2 數據挖掘產品測試/128
6.2.1 數據挖掘的定義和流程/128
6.2.2 數據挖掘產品簡介/129
6.2.3 數據挖掘產品測試實踐/130
6.3 用戶行為分析平臺測試/139
6.3.1 用戶行為分析平臺測試概覽/139
6.3.2 數據采集階段測試/140
6.3.3 實時數據處理階段測試/140
6.3.4 離線數據處理階段測試/153
6.3.5 數據查詢展示階段測試/153
6.4 本章小結/156
第7章 數據質量管理/157
7.1 數據質量管理概述/157
7.2 數據質量管理流程/158
7.2.1 建立數據質量管理辦法/159
7.2.2 制定數據標準/161
7.2.3 數據質量自查評估/162
7.2.4 數據質量問題修復/170
7.3 本章小結/173
第8章 大數據測試平臺實踐/174
8.1 大數據測試平臺背景/174
8.2 大數據測試的開源技術調研/175
8.2.1 great_expectations/176
8.2.2 WeBankFinTech Qualitis/178
8.3 大數據測試的商業(yè)方案分析/181
8.3.1 QuerySurge/182
8.3.2 RightData/184
8.4 從零開始搭建大數據測試平臺/186
8.4.1 需求分析/187
8.4.2 架構設計/187
8.4.3 功能實現/189
8.4.4 頁面演示/196
8.4.5 總結和展望/201
8.5 本章小結/203
第9章 數據治理平臺建設/204
9.1 數據治理概述/204
9.1.1 數據治理的基本概念/204
9.1.2 數據治理的重要意義/205
9.1.3 數據治理面臨的主要挑戰(zhàn)/206
9.1.4 如何開展數據治理/206
9.2 數據治理平臺體系/207
9.3 元數據管理平臺/208
9.3.1 平臺產生背景/208
9.3.2 平臺架構/208
9.3.3 模塊設計:數據采集/209
9.3.4 模塊設計:數據查詢/212
9.3.5 模塊設計:數據分析/214
9.4 數據質量監(jiān)控平臺/219
9.4.1 平臺產生背景/219
9.4.2 平臺架構/220
9.4.3 模塊設計:規(guī)則引擎/221
9.4.4 模塊設計:任務中心/230
9.4.5 模塊設計:報警系統(tǒng) /230
9.5 本章小結/232
第 10章 DataOps的理念與實踐/233
10.1 DataOps概述/233
10.1.1 什么是DataOps/233
10.1.2 為什么需要DataOps/235
10.1.3 DataOps與DevOps、MLOps的聯系和區(qū)別/237
10.2 DataOps的能力與特性/239
10.2.1 數據工程/239
10.2.2 數據集成/240
10.2.3 數據安全和數據隱私保護/241
10.2.4 數據質量/242
10.2.5 DataOps的4個特性/243
10.3 DataOps技術實踐/244
10.3.1 DataOps技術工具/245
10.3.2 數據管道技術示例/246
10.4 本章小結/253
第 11章 大數據測試的學習路線和發(fā)展趨勢/254
11.1 為什么學習大數據測試/254
11.2 如何學習大數據測試/255
11.2.1 大數據測試的學習路線/255
11.2.2 大數據測試的技能圖譜/259
11.3 大數據測試的發(fā)展趨勢/269
11.4 本章小結/270
附錄 大數據技術經典面試題/271
參考文獻/276