分布式系統(tǒng)是一門理論模型與工程技法并重的學科,現(xiàn)在的互聯(lián)網從業(yè)的開發(fā)人員,很難繞過分布式系統(tǒng),或多或少會在面試、工作中接觸到分布式系統(tǒng)的知識。本書主要通過理論和實踐結合的方式介紹分布式系統(tǒng)。主要內容有分布式系統(tǒng)基礎知識:分布式系統(tǒng)模型、分區(qū)、一致性哈希、主從復制、一致性級別、分布式共識、分布式事務、分布式系統(tǒng)中的時間等,幫助讀者夯實分布式基礎知識;本書也面向實踐者:實現(xiàn)簡單的 Paxos 共識算法、HDFS、ZooKeeper、etcd、Kubernetes 等分布式系統(tǒng)案例研究等。
唐偉志,曾任網易游戲、騰訊基礎架構工程師。畢業(yè)后一直從事分布式系統(tǒng)相關工作,在知乎和公眾號“多顆糖”上分享對分布式系統(tǒng)論文的解讀和算法的講解。開源愛好者、TiDB Reviewer和Kubernetes Contributor。
第1章 認識分布式系統(tǒng)
1.1 什么是分布式系統(tǒng)
1.2 為什么需要分布式系統(tǒng)
1.3 分布式系統(tǒng)的示例
1.3.1 搜索引擎
1.3.2 加密貨幣
1.4 分布式系統(tǒng)的挑戰(zhàn)
1.4.1 網絡延遲問題
1.4.2 部分失效問題
1.4.3 時鐘問題
1.5 每個程序員都應該知道的數(shù)字
1.6 本章小結
第2章 分布式系統(tǒng)模型
2.1 兩將軍問題
2.2 拜占庭將軍問題
2.3 系統(tǒng)模型
2.3.1 網絡鏈路模型
2.3.2 節(jié)點故障類型
2.3.3 按時間劃分系統(tǒng)模型
2.4 消息傳遞語義
2.5 本章小結
第3章 分布式數(shù)據基礎
3.1 分區(qū)
3.1.1 水平分區(qū)算法
3.1.2 分區(qū)的挑戰(zhàn)
3.2 復制
3.2.1 單主復制
3.2.2 多主復制
3.2.3 無主復制
3.3 CAP定理
3.3.1 PACELC定理
3.3.2 BASE
3.4 一致性模型
3.4.1 線性一致性
3.4.2 實現(xiàn)線性一致性
3.4.3 線性一致性的代價
3.4.4 順序一致性
3.4.5 因果一致性
3.4.6 最終一致性
3.4.7 以客戶端為中心的一致性模型
3.5 隔離級別
3.6 一致性和隔離級別的對比
3.7 本章小結
第4章 分布式共識
4.1 分布式共識簡介
4.1.1 什么是分布式共識
4.1.2 為什么要達成共識
4.2 異步系統(tǒng)中的共識
4.2.1 FLP不可能定理
4.2.2 故障屏蔽
4.2.3 使用故障檢測器
4.2.4 使用隨機性算法
4.3 同步系統(tǒng)中的共識
4.4 Paxos
4.4.1 基本概念
4.4.2 問題描述
4.4.3 Paxos算法實現(xiàn)流程
4.4.4 案例
4.4.5 活鎖
4.5 實驗:使用Go語言實現(xiàn)Paxos共識算法
4.5.1 定義相關結構體
4.5.2 定義消息結構體
4.5.3 算法實現(xiàn)流程
4.5.4 學習提案
4.5.5 實現(xiàn)單元測試
4.6 Multi-Paxos
4.6.1 確定日志索引
4.6.2 領導者選舉
4.6.3 減少請求
4.6.4 副本的完整性
4.6.5 客戶端請求
4.6.6 配置變更
4.6.7 完整實現(xiàn)
4.6.8 Paxos練習題
4.7 其他Paxos變體
4.7.1 Disk Paxos
4.7.2 Cheap Paxos
4.7.3 Fast Paxos
4.7.4 Mencius
4.7.5 EPaxos
4.7.6 Flexible Paxos
4.7.7 WPaxos
4.7.8 CASPaxos
4.7.9 其他
4.8 Raft算法
4.8.1 系統(tǒng)模型
4.8.2 基本概念
4.8.3 領導者選舉
4.8.4 日志復制
4.8.5 領導者更替
4.8.6 選舉限制舉例
4.8.7 延遲提交之前任期的日志條目
4.8.8 清理不一致的日志
4.8.9 處理舊領導者
4.8.10 客戶端協(xié)議
4.8.11 實現(xiàn)線性一致性
4.8.12 配置變更
4.8.13 配置變更存在的Bug
4.8.14 極端情況下的活性問題
4.8.15 日志壓縮
4.8.16 基于內存的狀態(tài)機的快照
4.8.17 基于磁盤的狀態(tài)機的快照
4.8.18 性能優(yōu)化
4.8.19 Raft練習題
4.9 Paxos vs Raft
4.10 拜占庭容錯和PBFT算法
4.11 本章小結
第5章 分布式事務
5.1 什么是分布式事務
5.2 原子提交
5.2.1 兩階段提交
5.2.2 三階段提交
5.2.3 Paxos提交算法
5.2.4 基于Quorum的提交協(xié)議
5.2.5 Saga事務
5.3 并發(fā)控制
5.3.1 兩階段鎖
5.3.2 樂觀并發(fā)控制
5.3.3 多版本并發(fā)控制
5.4 Percolator
5.5 本章小結
第6章 時間和事件順序
6.1 物理時鐘
6.2 時鐘同步
6.3 邏輯時鐘
6.4 向量時鐘
6.5 分布式快照
6.6 本章小結
第7章 案例研究
7.1 分布式文件系統(tǒng)
7.1.1 GFS的目標
7.1.2 架構
7.1.3 讀取文件
7.1.4 寫入文件
7.1.5 一致性模型
7.1.6 其他
7.2 分布式協(xié)調服務
7.2.1 ZooKeeper架構
7.2.2 數(shù)據模型
7.2.3 ZooKeeper實現(xiàn)
7.2.4 客戶端API
7.2.5 其他
7.3 分布式表格存儲Bigtable
7.3.1 數(shù)據模型
7.3.2 架構
7.3.3 SSTable和LSM Tree
7.3.4 其他優(yōu)化
7.4 分布式鍵值存儲Dynamo
7.4.1 架構
7.4.2 請求協(xié)調
7.4.3 成員管理和故障檢測
7.5 分布式NoSQL數(shù)據庫Cassandra
7.5.1 數(shù)據模型
7.5.2 架構
7.5.3 協(xié)調請求
7.5.4 一致性級別
7.5.5 輕量級事務
7.5.6 二級索引
7.5.7 批處理
7.6 分布式數(shù)據庫Spanner
7.6.1 數(shù)據模型
7.6.2 架構
7.6.3 TrueTime
7.6.4 讀寫事務
7.6.5 只讀事務
7.6.6 快照讀和模式變更事務
7.7 分布式批處理
7.7.1 MapReduce
7.7.2 Spark
7.8 分布式流處理框架Flink
7.8.1 計算模型
7.8.2 系統(tǒng)架構
7.8.3 時間處理
7.8.4 分布式快照
7.8.5 端到端的精確一次語義
7.9 本章小結