全書共13章,分兩大部分進行全面而系統(tǒng)的介紹,
第一部分從騰訊大數據平臺的發(fā)展歷程和總體架構切入,深入剖析了各項技術原理,闡述了實戰(zhàn)過程中的挑戰(zhàn)和自研核心技術的設計思想,覆蓋了大數據接入、計算、存儲、分析、調度等大量技術組件。
第二部分主要介紹了騰訊在數據治理、數據應用、機器學習和平臺運營方面的建設經驗,并對騰訊大數據產品及其在內外部場景的實踐落地進行了解讀, 書中列舉的大量實踐案例對廣大讀者都極具參考價值和借鑒意義。
(1)騰訊官方出品!騰訊大數據構建之道首次對外披露!騰訊大數據平臺十年磨一劍,踐行科技向善落地方案。
(2)本書由騰訊數據平臺部組織,騰訊公司副總裁蔣杰領銜撰寫,首次對外詳細闡述了騰訊大數據平臺系統(tǒng)架構,以及多年來平臺建設的思考與沉淀。
騰訊作為一家以互聯(lián)網為基礎的科技與文化公司,其互聯(lián)網業(yè)務與億萬網民的日常生活息息相關,從社交平臺出發(fā),已拓展至娛樂、金融、資訊、工具、流量平臺等多個業(yè)務板塊。2019年,馬化騰公布騰訊公司的新愿景為用戶為本,科技向善,目前已經踐行多個科技向善落地方案,例如與政府合作的AI尋人、AI醫(yī)學影像產品騰訊覓影,以及培育高產量AI黃瓜等項目,而這些項目的背后無不是以騰訊大數據作為底層支撐,通過AI賦能創(chuàng)造可以為社會帶來實際價值的產品。
騰訊數據人每天不得不面對海量的數據處理需求,例如用戶每天在微信朋友圈和QQ空間上傳的圖片超過10億張,騰訊視頻每天播放量超過20億次,除夕當天紅包支付超過25億筆,每天移動支付超過5億筆,這些數據規(guī)模在國內均居行業(yè)前列。
伴隨著業(yè)務的迅猛發(fā)展,騰訊大數據平臺十年磨一劍,已經初步搭建完成了數據采集、存儲、計算、應用、運維、治理等一整套大數據業(yè)務處理平臺。本書正是在此背景下應運而生的,首次對外詳細闡述了騰訊大數據平臺系統(tǒng)架構,以及多年來平臺建設的思考與沉淀。
本書內容總體分成兩大部分,第一部分主要講述騰訊大數據平臺的技術體系,第二部分主要講述騰訊大數據通過騰訊云對外開放的一系列產品。主要包括:
一、騰訊大數據的起源、技術理念及發(fā)展歷程:重點講述騰訊大數據從無到有的故事、開源路線選擇的思考以及三代大數據平臺架構的技術演進。
二、數據實時采集平臺:重點講述騰訊自主研發(fā)的高并發(fā)消息中間件,該平臺在騰訊內部使用超過十年,每天接入數十萬億級的消息。
三、分布式存儲平臺:講述廣受歡迎的HDFS、Ceph、HBase等開源組件,并重點闡述下一代分布式存儲平臺Ozone。
四、分布式計算平臺:重點講述騰訊大數據歷經十年發(fā)展的變遷史,從Hadoop到Spark,從Storm到Flink的發(fā)展史,同時也講述任務調度系統(tǒng)及多種計算分析引擎。
五、資源調度平臺:重點講述如何實現(xiàn)十萬節(jié)點級別的大規(guī)模集群的調度管理,闡述CPU、GPU、內存、磁盤、網絡等資源調度的優(yōu)化。
六、數據治理體系:涉及元數據、數據資產管理、數據安全等內容。
七、機器學習平臺:介紹騰訊大數據自主研發(fā)的高性能分布式機器學習平臺Angel,這是國內首個在全球范圍的頂級開源社區(qū)畢業(yè)的機器學習平臺。
八、數據內容挖掘:主要講述對數據價值的挖掘、以用戶畫像為核心的數據內容的挖掘。
九、大數據平臺運營:大數據平臺的核心競爭力很大一部分來自平臺的運維與運營,騰訊大數據平臺的機器節(jié)點規(guī)模超過十萬臺,但騰訊大數據運維團隊只有二三十人,這里主要講述運維團隊經歷的方方面面。
十、對外開放的騰訊大數據能力:講述騰訊大數據套件TBDS、一站式機器學習平臺智能鈦TI,也講述每天推送量達到數百億的移動推送平臺,重點披露承載了騰訊大數據超過500萬核的底層算力平臺的技術實踐細節(jié),還有智能客服機器人、數據可視化產品等。
本書由騰訊數據平臺部組織編寫,詳盡地記錄了騰訊大數據技術發(fā)展與演進各個階段所使用的技術,也記錄了騰訊大數據團隊經歷過的各種考驗,希望可以給各位同行及有志于從事大數據行業(yè)的朋友一些啟發(fā)與借鑒。
核心團隊
騰訊數據平臺部致力于為騰訊集團旗下業(yè)務提供專業(yè)、可靠的大數據平臺及機器學習平臺服務,并依托騰訊云將大數據與AI能力對外輸出。團隊專注于大數據、云原生、機器學習、圖計算、AI視覺和推薦技術等核心技術,并在世界級比賽屢獲獎項。同時,團隊全面擁抱開源并持續(xù)貢獻社區(qū),自主研發(fā)的分布式機器學習平臺Angel和大數據集成平臺InLong分別從Linux和Apache頂級項目畢業(yè),具有世界級的技術影響力。
核心作者
蔣杰,北京大學博士,騰訊公司副總裁,中國人工智能產業(yè)發(fā)展聯(lián)盟(AIIA)副理事長,中國計算機學會(CCF)大數據專家委員會委員。
2012年起在騰訊負責大數據平臺建設,主導研發(fā)了離線計算、實時計算、機器學習、數智融合四代騰訊大數據平臺,并推動大數據技術開源。 帶領騰訊完成了騰訊廣告投放端整合,實現(xiàn)了騰訊全流量的一站式投放。在人工智能領域,打造了騰訊AI學習平臺,獲得多項頂級賽事獎項。
前言
第1章 打造騰訊大數據平臺1
1.1 騰訊大數據的緣起3
1.2 騰訊大數據的構建理念5
1.3 騰訊大數據的總體架構7
第2章 數據實時采集平臺11
2.1 接入層挑戰(zhàn)12
2.2 接入管理層TDManager14
2.3 數據采集17
2.4 數據總線23
2.5 消息中間件30
2.6 數據分揀40
2.7 接入層展望44
第3章 分布式存儲平臺46
3.1 文件存儲HDFS47
3.2 統(tǒng)一存儲Ceph62
3.3 下一代大數據存儲Ozone77
3.4 KV存儲HBase88
第4章 分布式計算平臺99
4.1 批處理MapReduce100
4.2 批處理Spark107
4.3 批處理漂移計算SuperSQL123
4.4 流處理Flink146
4.5 SQL數據倉庫Hive165
4.6 任務調度175
第5章 數據分析引擎184
5.1 關系型OLAP:騰訊實時多維分析平臺185
5.2 關系型OLAP:ClickHouse200
5.3 多維OLAP:Kylin211
5.4 多維OLAP:Druid222
第6章 資源調度平臺234
6.1 Yarn項目背景235
6.2 調度器性能優(yōu)化241
6.3 集群的高可用性244
6.4 多資源維度彈性管理254
第7章 數據治理體系261
7.1 元數據262
7.2 數據資產管理271
7.3 大數據安全283
第8章 機器學習平臺298
8.1 圖智能平臺299
8.2 Angel310
8.3 聯(lián)邦學習333
第9章 數據內容挖掘350
9.1 概覽351
9.2 廣告內容挖掘352
9.3 用戶畫像數據體系365
9.4 用戶畫像構建方法366
9.5 數據內容挖掘與推薦379
9.6 數據內容挖掘與AI創(chuàng)作380
第10章 大數據平臺運營384
10.1 大數據服務規(guī)劃385
10.2 大數據平臺治理393
10.3 自動化運維體系構建397
10.4 平臺運營成本優(yōu)化404
10.5 大數據運營分析與應用體系408
第11章 大數據平臺產品設計410
11.1 TBDS大數據處理套件411
11.2 Oceanus實時流式數據處理平臺419
11.3 ideX數據分析與探索挖掘工具425
11.4 智能鈦TI機器學習平臺429
第12章 企業(yè)級容器云平臺GaiaStack438
12.1 GaiaStack產品背景和目標439
12.2 GaiaStack架構和技術特點446
12.3 GaiaStack核心技術454
第13章 大數據應用服務503
13.1 智能客服機器人504
13.2 移動推送526
13.3 數據可視化產品小馬BI535
參考文獻549