本書是一部介紹有關新一代測序(NGS)數據分析方法的著作。書中全面系統地介紹了新—代測序技術的生物學意義、測序原理、分析過程和應用領域等;詳細介紹了新—代測序數據的分析方法,包括其在基因組從頭測序和重測序、轉錄組測序、小RNA測序、ChIP測序、表觀基因組測序及宏基因組測序等應用中的具體分析方法,對讀者學習新一代測序技術、促進該技術在生命科學各個領域中的應用有著重要意義。
更多科學出版社服務,請掃碼獲取。
目錄
第一部分 細胞與分子生物學概論
1 細胞系統與生命密碼 3
1.1 細胞面臨的挑戰(zhàn) 3
1.2 細胞如何面對挑戰(zhàn) 3
1.3 細胞內的各種分子 4
1.4 細胞內結構與空間 4
1.4.1 細胞核 5
1.4.2 細胞膜 6
1.4.3 細胞質 6
1.4.4 內體、溶酶體和過氧化物酶體 7
1.4.5 核糖體 7
1.4.6 內質網 8
1.4.7 高爾基體 8
1.4.8 細胞骨架 8
1.4.9 線粒體 9
1.4.10 葉綠體 10
1.5 細胞是一個系統 11
1.5.1 細胞系統 11
1.5.2 細胞的系統生物學 11
1.5.3 如何研究細胞系統 12
2 DNA序列:基因組基礎 13
2.1 DNA雙螺旋和堿基序列 13
2.2 DNA分子如何復制和保持穩(wěn)定性 13
2.3 DNA中保存的遺傳信息如何轉化為蛋白質 15
2.4 基因組概覽 16
2.4.1 最小基因組 16
2.4.2 基因組大小 17
2.4.3 基因組中的蛋白質編碼區(qū) 17
2.4.4 基因組非編碼區(qū) 18
2.5 DNA包裝、序列訪問和DNA-蛋白質互作 20
2.5.1 DNA包裝 20
2.5.2 序列訪問 20
2.5.3 DNA-蛋白質互作 20
2.6 DNA序列的突變與多樣性 21
2.7 基因組演化 23
2.8 表觀基因組與DNA甲基化 24
2.9 基因組測序與疾病風險 25
2.9.1 孟德爾(單基因)疾病 25
2.9.2 多基因控制的復雜疾病 25
2.9.3 基因組不穩(wěn)定導致的疾病 26
2.9.4 表觀基因組/表觀遺傳疾病 26
3 RNA:轉錄后的序列 27
3.1 RNA作為信使 27
3.2 RNA的分子結構 27
3.3 mRNA的產生、加工與周轉 28
3.3.1 DNA模板 28
3.3.2 原核生物基因的轉錄 28
3.3.3 真核生物基因pre-mRNA的初始轉錄 30
3.3.4 從mRNA前體到成熟的mRNA 31
3.3.5 運輸與定位 33
3.3.6 穩(wěn)定性與降解 33
3.3.7 mRNA轉錄水平上調控的主要步驟 34
3.4 RNA不僅僅是信使 35
3.4.1 核酶 35
3.4.2 核小RNA和核仁小RNA 36
3.4.3 端粒復制中的RNA 36
3.4.4 RNAi和非編碼小RNA 36
3.4.5 長非編碼RNA 39
3.4.6 其他非編碼RNA 40
3.5 細胞轉錄組學研究概覽 40
第二部分 新一代測序技術及數據分析概論
4 新一代測序技術的來龍去脈 43
4.1 怎樣做DNA測序:從第一代到新一代 43
4.2 典型的NGS實驗流程 45
4.3 不同NGS測序平臺的詳細介紹 48
4.3.1 Illumina可逆染色終止子測序 48
4.3.2 Ion Torrent半導體測序 52
4.3.3 PacBio單分子實時測序 53
4.4 測序的偏好性及其他影響NGS數據準確性的負面因素 54
4.4.1 文庫構建中的偏好性 55
4.4.2 測序過程中的偏好性和其他因素 56
4.5 NGS的主要應用 56
4.5.1 轉錄組特征和可變剪接檢測 56
4.5.2 遺傳突變與變異的發(fā)現 57
4.5.3 基因組的從頭組裝 57
4.5.4 蛋白質與DNA的互作分析(ChIP-Seq) 57
4.5.5 表觀基因組學與DNA甲基化研究 57
4.5.6 宏基因組學 58
5 新一代測序數據前期分析的常見步驟 59
5.1 堿基識別、FASTQ文件格式和堿基質量值 60
5.2 NGS數據的質量控制與處理 61
5.3 讀段的定位 63
5.3.1 定位方法與算法 63
5.3.2 定位算法和參考基因組序列的選擇 65
5.3.3 標準定位文件格式SAM/BAM 66
5.3.4 定位文件的檢驗與操作 67
5.4 第三階段分析 70
6 新一代測序數據管理與分析的計算能力需求 71
6.1 NGS數據的存儲、傳輸與共享 71
6.2 NGS數據分析所需的計算能力 72
6.3 NGS數據分析所需軟件 74
6.4 NGS數據分析所需的生物信息學技能 75
第三部分 新一代測序數據分析的具體應用
7 轉錄組測序 79
7.1 轉錄組測序的原理 79
7.2 實驗設計 79
7.2.1 因子設計 79
7.2.2 重復與隨機化 80
7.2.3 樣本制備 80
7.2.4 測序策略 81
7.3 轉錄組測序數據分析 82
7.3.1 數據質控與讀段定位 82
7.3.2 轉錄組測序數據的均一化 84
7,3.3 差異表達基因的鑒定 85
7.3.4 可變剪接分析 87
7.3.5 轉錄組測序數據的可視化 88
7.3.6 被識別基因的功能分析 88
7.4 利用轉錄組測序發(fā)現新基因 88
8 小RNA測序 90
8.1 小RNA新一代測序數據生成和上游處理 91
8.1.1 數據生成 91
8.1.2 預處理 92
8.1.3 定位 92
8.1.4 小RNA的注釋和預測 93
8.1.5 均一化 94
8.2 鑒別差異表達的小RNA 94
8.3 已鑒定小RNA的功能分析 94
9 用全基因組重測序方法分析基因型和發(fā)現基因組變異 96
9.1 數據預處理、比對、再比對和再校準 96
9.2 單堿基變異和indel檢測 98
9.2.1 SNV檢測 98
9.2.2 新突變位點的檢測 99
9.2.3 Indel檢測 99
9.2.4 轉錄組測序數據的變異檢測 101
9.2.5 變異檢測格式文件 101
9.2.6 評估VCF結果 102
9.3 結構變異檢測 103
9.3.1 基于配對讀段的SV檢測 103
9.3.2 斷點的確定 104
9.3.3 基于從頭組裝的SV檢測 104
9,3.4 CNV檢測 104
9.3.5 綜合SV分析 105
9.4 檢測變異的注釋 105
9.5 變異與疾病或性狀關聯的檢驗 105
10 用新一代測序結果進行基因組從頭組裝 107
10.1 從頭組裝的基因組因素與測序策略 107
10.1.1 影響從頭組裝的基因組因素 107
10.1.2 從頭組裝的測序策略 108
10.2 重疊群的組裝 109
10.2.1 測序數據的預處理、錯誤修正與基因組特征的評估 109
10.2.2 重疊群組裝的算法 111
10.3 組裝骨架 112
10.4 組裝質量評估 113
10.5 補齊缺口 114
10.6 局限性與未來的發(fā)展 114
11 用ChIP-Seq法對蛋白質-DNA互作定位 116
11.1 ChIP-Seq的原理 116
11.2 實驗設計 118
11.2.1 實驗對照 118
11.2.2 測序深度 118
11.2.3 重復 118
11.3 讀段定位、峰值確定與峰值可視化 119
11.3.1 數據質控與讀段定位 119
11.3.2 峰值確定 121
11.3.3 峰值可視化 127
11.4 不同的結合點分析 127
11.5 功能分析 129
11.6 基序分析 129
11.7 整合ChIP-Seq數據分析 130
12 用新一代測序進行表觀基因組學和DNA甲基化分析 132
12.1 DNA甲基化測序策略 132
12.1.1 全基因組亞硫酸氫鹽測序 133
12.1.2 簡化的亞硫酸氫鹽測序 134
12.1.3 基于甲基化DNA富集的甲基化測序 134
12.1.4 區(qū)分胞嘧啶甲基化與亞硫酸氫鹽測序中去甲基化產物 135
12.2 DNA甲基化測序數據分析 135
12.2.1 數據質量控制和預處理 135
12.2.2 讀段定位 135
12.2.3 DNA甲基化的定量 137
12.2.4 DNA甲基化數據的可視化 138
12.3 甲基化胞嘧啶位點及差異區(qū)域的檢測 140
12.4 數據檢驗、核實和解析 140
13 用新一代測序進行宏基因組學研究 142
13.1 實驗設計與樣本制備 143
13.1.1 宏基因組樣本采集 143
13.1.2 宏基因組樣本制備 144
13.2 測序方法 145
13.3 全基因組鳥槍法宏基因組測序數據分析 145
13.4 測序數據的質控和預處理 147
13.5 微生物群落的分類學特征 147
13.5.1 宏基因組的組裝 147
13.5.2 序列的分bin 148
13.5.3 在宏基因組序列中識別可讀框和其他基因組元素 149
13.5.4 系統遺傳學標記分析 150
13.6 微生物群落的功能性特征 150
13.6.1 基因功能注釋 150
13.6.2 代謝途徑的重建 151
13.7 比較宏基因組分析 151
13.7.1 宏基因組測序數據均一化 152
13.7.2 識別不同豐度的物種或操作分類單位 152
13.8 整合宏基因組數據分析管道 152
13.9 宏基因組數據庫 153
第四部分 發(fā)展中的新一代測序技術與數據分析
14 新一代測序將走向何方? 157
14.1 發(fā)展中的新一代測序 157
14.2 高通量測序數據分析的生物信息學工具的快速涌現與變化 159
14.3 NGS分析管道的規(guī)范化與流程化 160
14.4 并行計算 160
14.5 云計算 161
參考文獻 164
附錄A 新一代測序數據分析常用文件格式 188
附錄B 詞匯表 190