大模型作為人工智能技術(shù)的重要發(fā)展方向,逐漸成為未來科技發(fā)展的重要方向之一;诖,本書重點介紹與大模型相關(guān)的基礎(chǔ)知識、原理與技術(shù)。本書分為14章,內(nèi)容包括深度學習基礎(chǔ)、自然語言處理、大模型網(wǎng)絡(luò)結(jié)構(gòu)、大模型訓練與優(yōu)化、大模型微調(diào)及相關(guān)應用案例等。全書強調(diào)內(nèi)容的科學性與系統(tǒng)性,從大模型歷史發(fā)展脈絡(luò)、理論基礎(chǔ)、構(gòu)建方法到應用場景,循序漸進地全面講解大模型技術(shù)。本書聚焦于大模型在不同領(lǐng)域的擴展應用,提供了應用案例的全方位學習路徑,旨在培養(yǎng)和提升學生的實踐和創(chuàng)造能力。每章都提供了相應的習題,供學生練習和鞏固知識。同時,本書通過介紹開源框架"計圖”、華為芯片、航空航天裝備制造等知識,可以讓學生了解更多國產(chǎn)技術(shù)。 本書提供了電子課件及習題參考答案等配套資源,可登錄華信教育資源網(wǎng)(www.hxedu.com.cn)下載。本書適合作為科研院所和本科院校計算機、人工智能、機械制造與自動化等相關(guān)專業(yè)的教材,也可以作為高職高專院校的教學參考書。
魏明強,國家優(yōu)青、教授、博士生導師。博士畢業(yè)于香港中文大學并獲最佳博士畢業(yè)論文獎(2014)。近年來,圍繞大飛機3D掃描與測量、幾何深度學習和三維視覺等研究方向,主持國防基礎(chǔ)科研、國家重點研發(fā)計劃子課題、國自然優(yōu)青/面上/青年以及聯(lián)合主持國自然重點項目等10余項;發(fā)表學術(shù)論文150余篇,如IEEE TPAMI、CVPR等CCF A類期刊和會議,相關(guān)技術(shù)用在多個國家重點型號工程。
目 錄
第1章 緒論 1
1.1 大模型基本概念 2
1.2 大模型發(fā)展歷程 4
1.2.1 從技術(shù)架構(gòu)看發(fā)展歷程 5
1.2.2 從參數(shù)規(guī)?窗l(fā)展歷程 6
1.2.3 從模態(tài)支持看發(fā)展歷程 6
1.2.4 從應用領(lǐng)域看發(fā)展歷程 6
1.3 大模型關(guān)鍵技術(shù)及訓練流程 7
1.3.1 大模型關(guān)鍵技術(shù) 7
1.3.2 大模型訓練流程 9
1.4 本書內(nèi)容安排 11
1.5 思考 12
習題1 13
第2章 深度學習基礎(chǔ) 14
2.1 神經(jīng)網(wǎng)絡(luò)基礎(chǔ) 14
2.1.1 神經(jīng)網(wǎng)絡(luò) 14
2.1.2 卷積神經(jīng)網(wǎng)絡(luò) 18
2.2 損失函數(shù)和優(yōu)化算法 24
2.2.1 損失函數(shù) 24
2.2.2 優(yōu)化算法 26
2.3 神經(jīng)網(wǎng)絡(luò)訓練 29
2.3.1 梯度和鏈式法則 29
2.3.2 前向傳播與反向傳播 30
2.3.3 訓練神經(jīng)網(wǎng)絡(luò)示例 32
2.4 深度學習框架 34
2.4.1 主流深度學習框架 34
2.4.2 框架選擇和優(yōu)缺點比較 36
2.5 思考 37
習題2 38
第3章 自然語言處理 40
3.1 自然語言處理概述 40
3.1.1 基本任務(wù) 40
3.1.2 發(fā)展歷程 42
3.1.3 應用領(lǐng)域 43
3.2 詞嵌入 44
3.2.1 獨熱向量 44
3.2.2 Word2vec 45
3.2.3 代碼示例 48
3.3 循環(huán)神經(jīng)網(wǎng)絡(luò) 50
3.3.1 循環(huán)神經(jīng)網(wǎng)絡(luò)介紹 50
3.3.2 循環(huán)神經(jīng)網(wǎng)絡(luò)訓練 51
3.3.3 循環(huán)神經(jīng)網(wǎng)絡(luò)梯度問題 52
3.3.4 雙向循環(huán)神經(jīng)網(wǎng)絡(luò) 53
3.4 長短期記憶網(wǎng)絡(luò) 54
3.4.1 長短期記憶網(wǎng)絡(luò)介紹 55
3.4.2 長短期記憶網(wǎng)絡(luò)應用 57
3.5 門控循環(huán)單元 61
3.5.1 門控循環(huán)單元介紹 62
3.5.2 門控循環(huán)單元應用 63
3.6 思考 67
習題3 68
第4章 大模型網(wǎng)絡(luò)結(jié)構(gòu) 69
4.1 Transformer 69
4.1.1 注意力機制 71
4.1.2 編碼器-解碼器結(jié)構(gòu) 80
4.1.3 大模型中的編碼器-解碼器結(jié)構(gòu) 84
4.2 編碼器結(jié)構(gòu)—BERT家族 87
4.2.1 BERT結(jié)構(gòu) 87
4.2.2 預訓練策略 89
4.2.3 BERT的變體 92
4.3 解碼器結(jié)構(gòu)—GPT家族 95
4.3.1 GPT結(jié)構(gòu) 96
4.3.2 自回歸預訓練 98
4.3.3 后續(xù)改進 100
4.4 思考 104
習題4 105
第5章 大模型訓練與優(yōu)化 106
5.1 訓練數(shù)據(jù)準備 106
5.1.1 數(shù)據(jù)獲取 106
5.1.2 數(shù)據(jù)預處理 109
5.1.3 數(shù)據(jù)增強 111
5.1.4 數(shù)據(jù)配比與課程設(shè)置 114
5.1.5 開源數(shù)據(jù)集 115
5.2 并行化和分布式訓練 118
5.2.1 大模型訓練的挑戰(zhàn) 118
5.2.2 并行策略 118
5.2.3 節(jié)點間數(shù)據(jù)通信 120
5.2.4 分布式訓練框架 123
5.3 模型壓縮 126
5.3.1 量化 127
5.3.2 剪枝 132
5.3.3 知識蒸餾 136
5.4 華為芯片助力大模型訓練與部署 138
5.4.1 Ascend AI芯片 139
5.4.2 Atlas系列硬件 139
5.4.3 異構(gòu)計算架構(gòu)CANN 139
5.4.4 深度學習框架MindSpore 140
5.4.5 應用使能與行業(yè)應用 140
5.5 思考 140
習題5 142
第6章 大模型微調(diào) 144
6.1 大模型微調(diào)概述 144
6.2 參數(shù)高效微調(diào) 146
6.2.1 增量式微調(diào) 146
6.2.2 指定式微調(diào) 150
6.2.3 重參數(shù)化微調(diào) 151
6.2.4 混合微調(diào) 156
6.2.5 小結(jié) 157
6.3 指令微調(diào) 158
6.3.1 指令數(shù)據(jù)集構(gòu)建 159
6.3.2 指令微調(diào)階段 160
6.4 基于人類反饋的強化學習微調(diào) 161
6.4.1 獎勵建模 162
6.4.2 強化學習微調(diào) 163
6.4.3 案例講解 164
6.5 思考 166
習題6 166
第7章 大模型提示工程 168
7.1 提示工程簡介 168
7.2 零樣本提示 169
7.3 少樣本提示 176
7.4 鏈式思考提示 177
7.4.1 思維鏈提示工程概述 177
7.4.2 零樣本思維鏈 180
7.4.3 思維鏈拓展 180
7.5 思維樹提示 181
7.6 檢索增強生成 185
7.7 自動提示工程 185
7.8 思考 187
習題7 188
第8章 高效大模型策略 190
8.1 大模型效率概述 190
8.1.1 大模型效率面臨的問題 190
8.1.2 大模型效率及其評估指標 190
8.2 預算效率策略:縮放定律 192
8.3 數(shù)據(jù)效率策略 193
8.3.1 數(shù)據(jù)過濾 193
8.3.2 主動學習/重要性采樣 194
8.3.3 課程學習 194
8.4 架構(gòu)效率策略 195
8.4.1 高效注意力 195
8.4.2 高效位置編碼 196
8.4.3 稀疏模型 197
8.4.4 無注意力模型 197
8.5 訓練效率策略 197
8.5.1 穩(wěn)定訓練策略 198
8.5.2 混合精度訓練 198
8.5.3 并行訓練技術(shù) 199
8.5.4 內(nèi)存優(yōu)化 200
8.6 推理效率策略 200
8.6.1 剪枝 201
8.6.2 知識蒸餾 201
8.6.3 量化 202
8.6.4 低秩分解 202
8.7 微調(diào)效率策略 203
8.7.1 參數(shù)高效微調(diào) 203
8.7.2 數(shù)據(jù)高效調(diào)整 204
8.8 思考 204
習題8 205
第9章 單模態(tài)通用大模型 206
9.1 LLaMA:一種自然語言處理大模型 206
9.1.1 模型結(jié)構(gòu) 206
9.1.2 預訓練 209
9.1.3 微調(diào) 209
9.1.4 使用方法 211
9.2 SAM:一種圖像分割大模型 211
9.2.1 概述 212
9.2.2 提示下的圖像分割任務(wù) 212
9.2.3 SAM模型架構(gòu) 212
9.2.4 SA-1B:大規(guī)模掩碼數(shù)據(jù)集 216
9.2.5 SAM在各視覺任務(wù)中的應用 217
9.2.6 SAM的使用方法 218
9.3 AudioLM:讓AI為你譜曲寫歌 219
9.3.1 概述 219
9.3.2 AudioLM的組件構(gòu)成 219
9.3.3 AudioLM的訓練方式 220
9.3.4 AudioLM的安裝與使用 225
9.3.5 AudioLM的推理應用 225
9.4 Zero-1-to-3:二生三維 226
9.4.1 概述 226
9.4.2 Zero-1-to-3模型結(jié)構(gòu) 227
9.4.3 Zero-1-to-3的使用 229
9.5 思考 231
習題9 231
第10章 多模態(tài)通用大模型 232
10.1 多模態(tài)數(shù)據(jù)集介紹 232
10.1.1 GQA數(shù)據(jù)集 232
10.1.2 HowTo100M數(shù)據(jù)集 233
10.1.3 Conceptual-12M數(shù)據(jù)集 234
10.1.4 YT-Temporal-180M數(shù)據(jù)集 234
10.1.5 WebVid-2M數(shù)據(jù)集 234
10.1.6 ModelNet數(shù)據(jù)集 234
10.1.7 ShapeNet數(shù)據(jù)集 235
10.1.8 ScanObjectNN數(shù)據(jù)集 235
10.1.9 KITTI數(shù)據(jù)集 236
10.1.10 nuScenes數(shù)據(jù)集 236
10.1.11 Waymo數(shù)據(jù)集 237
10.2 CLIP:探索圖文結(jié)合的奧秘 238
10.2.1 概述 238
10.2.2 模型架構(gòu) 239
10.2.3 訓練過程 242
10.2.4 CLIP相關(guān)應用 244
10.2.5 CLIP的不足 247
10.3 GPT-4V:大模型視覺能力的新篇章 248
10.3.1 輸入模式 248
10.3.2 工作方式 249
10.3.3 視覺語言能力 251
10.4 ImageBind:多感官統(tǒng)一 255
10.4.1 概述 255
10.4.2 多模態(tài)特征編碼與對齊 256
10.4.3 數(shù)據(jù)集的靈活應用 257
10.4.4 相關(guān)應用 257
10.4.5 使用方法 258
10.5 3D-LLM:將三維世界注入大模型 260
10.5.1 三維語言數(shù)據(jù)生成 260
10.5.2 3D-LLM訓練方式 261
10.5.3 3D-LLM安裝與實現(xiàn)細節(jié) 263
10.5.4 3D-LLM應用圖譜 264
10.6 Sora:文生視頻 265
10.6.1 Sora為視頻生成帶來的改變 266
10.6.2 Sora的局限性與爭議 268
10.7 思考 268
習題10 269
第11章 大模型評測 271
11.1 大模型評測概述 271
11.2 知識和能力評測 272
11.2.1 問答能力 272
11.2.2 知識補全能力 272
11.2.3 推理能力 272
11.2.4 工具學習能力 274
11.3 對齊評測 274
11.3.1 倫理道德 275
11.3.2 偏見 275
11.3.3 有害內(nèi)容 276
11.3.4 真實性 276
11.4 安全評測 277
11.4.1 魯棒性評測 277
11.4.2 風險評測 278
11.5 行業(yè)大模型評測 278
11.5.1 醫(yī)學 278
11.5.2 教育學 279
11.5.3 計算機科學 279
11.5.4 金融學 280
11.6 思考 280
習題11 281
第12章 大模型主要應用場景 283
12.1 大模型產(chǎn)業(yè)圖譜 283
12.2 大模型軍事智能應用 284
12.3 大模型教育教學應用 286
12.4 大模型醫(yī)療健康應用 288
12.5 大模型工業(yè)應用 289
12.6 大模型氣象預報應用 292
12.7 大模型測繪應用 294
12.8 思考 295
習題12 296
第13章 基于大模型的智能軟件研發(fā) 297
13.1 基于大模型的智能軟件研發(fā)框架 297
13.2 智能軟件研發(fā)中的大模型技術(shù) 298
13.2.1 常用大模型 298
13.2.2 預訓練范式 299
13.3 智能軟件研發(fā)中的下游任務(wù) 300
13.3.1 程序語言相關(guān)任務(wù) 301
13.3.2 自然語言相關(guān)任務(wù) 308
13.3.3 程序語言與自然語言交互任務(wù) 311
13.4 常用數(shù)據(jù)集 317
13.4.1 預訓練數(shù)據(jù)集 317
13.4.2 下游任務(wù)數(shù)據(jù)集 318
13.5 思考 320
習題13 321
第14章 基于大模型的航空航天裝備制造 323
14.1 大模型在大飛機制造中的應用 323
14.1.1 大飛機制造概述 323
14.1.2 設(shè)計和優(yōu)化中的應用 324
14.2 大模型在航空發(fā)動機中的應用 327
14.2.1 航空發(fā)動機概述 327
14.2.2 具體應用場景 328
14.3 大模型在航空機載設(shè)備與系統(tǒng)中的應用 330
14.3.1 航空機載設(shè)備與系統(tǒng)概述 330
14.3.2 具體應用場景 330
14.4 大模型在無人機智能集群中的應用 332
14.4.1 無人機智能集群概述 332
14.4.2 具體應用場景 334
14.4.3 典型應用案例 334
14.5 思考 337
習題14 338
參考文獻 339