本書講解了大數(shù)據(jù)系統(tǒng)運(yùn)行維護(hù)過程中的各個(gè)主要階段及其任務(wù), 包括配置管理、基礎(chǔ)運(yùn)維管理、故障管理、性能管理、安全管理、高可用性管理、變更及升級(jí)管理、運(yùn)維場(chǎng)景應(yīng)用及服務(wù)資源管理, 內(nèi)容全面且翔實(shí), 兼具基礎(chǔ)理論知識(shí)與運(yùn)維實(shí)踐經(jīng)驗(yàn), 特別是重點(diǎn)介紹了大數(shù)據(jù)系統(tǒng)的運(yùn)維特點(diǎn)及運(yùn)維技能, 以保障大數(shù)據(jù)系統(tǒng)的穩(wěn)定可靠運(yùn)行, 更好地支撐大數(shù)據(jù)的商業(yè)應(yīng)用價(jià)值。
劉鵬,教授,清華大學(xué)博士畢業(yè),現(xiàn)任南京云創(chuàng)大數(shù)據(jù)科技股份有限公司總經(jīng)理,兼任中國大數(shù)據(jù)應(yīng)用聯(lián)盟人工智能專家委員會(huì)主任、中國信息協(xié)會(huì)教育分會(huì)人工智能教育專家委員會(huì)主任、教育部全國普通高校畢業(yè)生就業(yè)創(chuàng)業(yè)指導(dǎo)委員會(huì)委員、第45屆世界技能大賽中國區(qū)云計(jì)算選拔賽裁判長(zhǎng)/專家指導(dǎo)組組長(zhǎng)、2019年全國大學(xué)生數(shù)學(xué)建模比賽命題人、工信部云計(jì)算研究中心專家。
姜才康,華東計(jì)算所碩士畢業(yè),現(xiàn)任中國外匯交易中心工程運(yùn)行部總經(jīng)理。長(zhǎng)期從事銀行間市場(chǎng)(含外匯市場(chǎng)、貨幣市場(chǎng)、債券市場(chǎng)、衍生品市場(chǎng))的系統(tǒng)設(shè)計(jì)開發(fā)、系統(tǒng)運(yùn)維、標(biāo)準(zhǔn)制定等工作。主持或技術(shù)擔(dān)綱完成了數(shù)十項(xiàng)全國性大型關(guān)鍵系統(tǒng)建設(shè)及重點(diǎn)研究項(xiàng)目,探索中國金融領(lǐng)域的系統(tǒng)建設(shè)技術(shù)路徑及方法;構(gòu)建全方位的銀行間市場(chǎng)風(fēng)險(xiǎn)治理和運(yùn)維安全體系;制定多項(xiàng)銀行間市場(chǎng)技術(shù)規(guī)劃及技術(shù)標(biāo)準(zhǔn),建成并不斷完善銀行間市場(chǎng)技術(shù)生態(tài)圈。數(shù)十次獲得人民銀行科技發(fā)展獎(jiǎng)和上海市科技進(jìn)步獎(jiǎng)。
李四明,軟件工程碩士,副教授,系統(tǒng)分析師,獲得國家科技進(jìn)步獎(jiǎng)三等獎(jiǎng),擁有多項(xiàng)軟件著作專利;主持開發(fā)了醫(yī)院HIS系統(tǒng)、移動(dòng)臨床系統(tǒng)、移動(dòng)輸液系統(tǒng)、移動(dòng)藥品實(shí)時(shí)監(jiān)管系統(tǒng)、農(nóng)民健康體檢協(xié)同系統(tǒng),承擔(dān)過智慧城市、智慧社區(qū)的整體架構(gòu)工作。
第 1 章 配置管理
1.1 配置管理內(nèi)容 2
1.1.1 配置管理術(shù)語定義 2
1.1.2 應(yīng)用軟件配置 3
1.1.3 硬件配置 3
1.2 配置管理方法 7
1.2.1 配置流程 7
1.2.2 配置自動(dòng)發(fā)現(xiàn) 11
1.3 配置管理工具 11
1.3.1 CMDB 數(shù)據(jù)庫介紹與實(shí)踐 11
1.3.2 自動(dòng)配置工具 14
1.3.3 云時(shí)代下的 CMDB 24
1.4 其他運(yùn)維工具 24
1.4.1 Ambari 24
1.4.2 CLI 工具 26
1.4.3 Ganglia 27
1.4.4 Cloudera Manager 28
1.4.5 其他工具 31
1.5 作業(yè)與練習(xí) 32
參考文獻(xiàn) 32
第 2 章 基礎(chǔ)運(yùn)維管理
2.1 系統(tǒng)建設(shè) 33
2.1.1 技術(shù)方案 34
2.1.2 部署實(shí)施 35
2.1.3 測(cè)試驗(yàn)收 39
2.2 系統(tǒng)管理對(duì)象 40
2.2.1 系統(tǒng)管理對(duì)象 40
2.2.2 系統(tǒng)軟件 40
2.2.3 系統(tǒng)硬件 42
2.2.4 系統(tǒng)數(shù)據(jù) 43
2.2.5 IT 供應(yīng)商 43
2.3 系統(tǒng)管理內(nèi)容 44
2.3.1 事件管理 45
2.3.2 問題管理 45
2.3.3 配置管理 46
2.3.4 變更管理 46
2.3.5 發(fā)布管理 47
2.3.6 知識(shí)管理 47
2.3.7 日志管理 48
2.3.8 備份管理 48
2.4 系統(tǒng)管理工具 49
2.4.1 資產(chǎn)管理 49
2.4.2 監(jiān)控管理 49
2.4.3 流程管理 50
2.4.4 外包管理 51
2.5 系統(tǒng)管理制度規(guī)范 51
2.5.1 系統(tǒng)管理標(biāo)準(zhǔn) 51
2.5.2 系統(tǒng)管理制度 51
2.5.3 系統(tǒng)管理規(guī)范 52
2.6 日常巡檢 52
2.6.1 檢查內(nèi)容分類 52
2.6.2 巡檢方法分類 53
2.6.3 巡檢流程 54
2.7 日志管理 54
2.7.1 平臺(tái)及組件相關(guān)命令 55
2.7.2 日志和告警監(jiān)控 62
2.8 作業(yè)與練習(xí) 67
參考文獻(xiàn) 68
第 3 章 故障管理
3.1 集群結(jié)構(gòu) 69
3.2 故障報(bào)告 70
3.2.1 故障發(fā)現(xiàn) 70
3.2.2 影響分析 71
3.3 故障處理 72
3.3.1 故障診斷 72
3.3.2 故障排除 73
3.4 故障后期管理 74
3.4.1 建立和更新知識(shí)庫 74
3.4.2 故障預(yù)防 74
3.5 作業(yè)與練習(xí) 75
參考文獻(xiàn) 75
第 4 章 性能管理
4.1 性能分析 76
4.1.1 性能因子 76
4.1.2 性能指標(biāo) 77
4.2 性能監(jiān)控工具 78
4.2.1 GUI 79
4.2.2 集群 CLI 82
4.2.3 操作系統(tǒng)自帶工具 87
4.2.4 Ganglia 92
4.2.5 其他監(jiān)控工具 95
4.3 性能優(yōu)化 95
4.3.1 Hadoop 集群配置規(guī)劃優(yōu)化 95
4.3.2 Hadoop 性能優(yōu)化 96
4.3.3 作業(yè)優(yōu)化 100
4.4 作業(yè)與練習(xí) 108
參考文獻(xiàn) 108
第 5 章 安全管理
5.1 安全概述 109
5.2 資產(chǎn)安全管理 110
5.2.1 環(huán)境設(shè)施安全 110
5.2.2 設(shè)備安全 110
5.3 應(yīng)用安全 111
5.3.1 技術(shù)安全 111
5.3.2 數(shù)據(jù)安全 114
5.4 安全威脅 115
5.4.1 人為失誤 115
5.4.2 外部攻擊 116
5.4.3 信息泄密 122
5.4.4 災(zāi)害 122
5.5 安全措施 123
5.5.1 安全制度規(guī)范 123
5.5.2 安全防范措施 123
5.6 作業(yè)與練習(xí) 124
參考文獻(xiàn) 124
第 6 章 高可用性管理
6.1 高可用性概述 125
6.2 高可用性技術(shù) 126
6.2.1 系統(tǒng)架構(gòu) 126
6.2.2 容災(zāi) 128
6.2.3 監(jiān)控 128
6.2.4 故障轉(zhuǎn)移 134
6.3 業(yè)務(wù)連續(xù)性管理 134
6.3.1 災(zāi)備系統(tǒng) 134
6.3.2 應(yīng)急預(yù)案 138
6.3.3 日常演練 138
6.4 作業(yè)與練習(xí) 139
參考文獻(xiàn) 139
第 7 章 變更及升級(jí)管理
7.1 變更管理概述 140
7.1.1 變更管理目標(biāo) 140
7.1.2 變更管理范圍 140
7.1.3 變更管理的種類 140
7.1.4 變更管理的原則 141
7.2 變更管理流程 141
7.2.1 變更的組織架構(gòu) 141
7.2.2 變更的管理策略 141
7.2.3 變更的流程控制 142
7.2.4 變更管理流程 142
7.3 變更配置管理 144
7.4 通用系統(tǒng)升級(jí)流程 144
7.4.1 業(yè)務(wù)數(shù)據(jù)集環(huán)境備份 144
7.4.2 系統(tǒng)升級(jí)部署的常用策略(藍(lán)綠/滾動(dòng)/灰度) 145
7.4.3 業(yè)務(wù)服務(wù)驗(yàn)證 146
7.4.4 數(shù)據(jù)割接與用戶割接 152
7.4.5 回滾策略 155
7.5 作業(yè)與練習(xí) 156
參考文獻(xiàn) 156
第 8 章 運(yùn)維場(chǎng)景應(yīng)用
8.1 運(yùn)維場(chǎng)景描述 157
8.2 運(yùn)維應(yīng)用版本升級(jí) 158
8.2.1 Hadoop 升級(jí)管理 158
8.2.2 Spark 升級(jí)管理 159
8.2.3 Hive SQL 升級(jí)管理 161
8.2.4 ZooKeeper 升級(jí)管理 163
8.3 微服務(wù)與容器虛擬化 165
8.3.1 業(yè)務(wù)應(yīng)用容器化—Docker 165
8.3.2 容器的集群化管理與編排—k8s 169
8.3.3 微服務(wù)監(jiān)控與服務(wù)追蹤 177
8.4 云原生運(yùn)維 178
8.4.1 持續(xù)集成與持續(xù)交付 178
8.4.2 Jenkins 流水線 179
8.4.3 自動(dòng)化持續(xù)部署 180
8.4.4 服務(wù)的注冊(cè)與發(fā)現(xiàn) 181
8.4.5 服務(wù)的熔斷與限流 182
8.5 作業(yè)與練習(xí) 183
參考文獻(xiàn) 183
第 9 章 服務(wù)資源管理
9.1 業(yè)務(wù)能力管理 185
9.1.1 業(yè)務(wù)需求評(píng)估 185
9.1.2 業(yè)務(wù)需求趨勢(shì)預(yù)測(cè) 186
9.2 服務(wù)能力管理 187
9.2.1 人員能力動(dòng)態(tài)管理 187
9.2.2 服務(wù)成本動(dòng)態(tài)管理 189
9.2.3 技術(shù)與工具管理 190
9.3 服務(wù)資源整合 190
9.3.1 不同角色的責(zé)權(quán)劃分 190
9.3.2 用戶、供應(yīng)商、廠商的典型協(xié)作方式 192
9.4 作業(yè)與練習(xí) 193
參考文獻(xiàn) 194
附錄 A 大數(shù)據(jù)和人工智能實(shí)驗(yàn)環(huán)境
附錄 B Hadoop 環(huán)境要求
附錄 C 名詞解釋