本書從系統(tǒng)視角出發(fā),闡述如何利用技術(shù)手段搭建企業(yè)級推薦系統(tǒng),內(nèi)容包括認(rèn)知篇、數(shù)據(jù)篇、召回篇、排序篇、系統(tǒng)篇 5 個部分,覆蓋企業(yè)級推薦系統(tǒng)建設(shè)的核心要點。本書知識體系清晰,從基礎(chǔ)知識切入,逐步深入,先后涉及推薦系統(tǒng)的經(jīng)典技術(shù)、主流技術(shù)和前沿技術(shù)。本書通過“理論+案例+代碼示例+心得體會”的方式闡述、歸納和總結(jié)推薦系統(tǒng)的知識,幫助讀者理解推薦系統(tǒng),掌握技能,建立系統(tǒng)思維。
本書適合對推薦系統(tǒng)感興趣的初學(xué)者、從事數(shù)據(jù)挖掘/信息推薦相關(guān)工作的研發(fā)工程師、產(chǎn)品經(jīng)理、架構(gòu)師,以及相關(guān)專業(yè)學(xué)生和教師閱讀。
1、理論解析+案例解析+示例代碼+經(jīng)驗分享
2、知識體系全面,實用性強(qiáng)
3、經(jīng)典技術(shù)+主流技術(shù)+前沿技術(shù)
4、系統(tǒng)建設(shè)的基本原則+實戰(zhàn)技巧
5、系統(tǒng)視角闡述推薦系統(tǒng)搭建
6、作者從事信息系統(tǒng)研發(fā)20年,CTO,技術(shù)專家,融入推薦系統(tǒng)建設(shè)經(jīng)驗
陳實如
博士研究生,教授級高級工程師,浪潮集團(tuán)資深研究員,長期從事企業(yè)數(shù)字化轉(zhuǎn)型、技術(shù)規(guī)劃和技術(shù)管理,專注于物聯(lián)網(wǎng)、大數(shù)據(jù)、工業(yè)互聯(lián)網(wǎng)人工智能等領(lǐng)域,擅長數(shù)據(jù)挖掘、數(shù)據(jù)建模、推薦算法和系統(tǒng)架構(gòu)構(gòu)建。獨立負(fù)責(zé)幾十個信息化平臺的研發(fā)和交付,具有豐富的開發(fā)實戰(zhàn)經(jīng)驗。喜歡總結(jié),樂于分享。在國外核心期刊發(fā)表論文30余篇,獲得國家發(fā)明專利授權(quán)20余項。
第 1 部 分 認(rèn) 知 篇 1
第 1 章 認(rèn)識推薦系統(tǒng) 3
1.1 推薦與推薦系統(tǒng) 3
1.2 生活中的推薦系統(tǒng) 6
1.3 推薦系統(tǒng)的特點與價值 9
1.4 推薦服務(wù) 12
1.5 個性化推薦策略 14
1.5.1 U2Tag2I 策略 14
1.5.2 U2U2I 策略 15
1.5.3 U2I2I 策略 15
1.5.4 U2I 策略 16
1.6 本章小結(jié) 16
第 2章 推薦系統(tǒng)技術(shù)實現(xiàn) 17
2.1 工作原理 17
2.2 業(yè)務(wù)流程 18
2.3 業(yè)務(wù)功能模塊 21
2.3.1 數(shù)據(jù)采集 22
2.3.2 特征工程 26
2.3.3 推薦算法 29
2.3.4 推薦服務(wù) 36
2.3.5 效能評價 38
2.4 推薦系統(tǒng)開發(fā) 39
2.5 本章小結(jié) 43
第 2 部 分 數(shù) 據(jù) 篇 45
第 3 章 數(shù)據(jù)提取與特征向量 47
3.1 特征標(biāo)簽構(gòu)建流程 47
3.2 特征標(biāo)簽構(gòu)建方法 49
3.3 數(shù)據(jù)提取 51
3.4 數(shù)據(jù)處理 53
3.4.1 數(shù)據(jù)統(tǒng)計 54
3.4.2 數(shù)據(jù)標(biāo)準(zhǔn)化 55
3.4.3 數(shù)據(jù)離散化 58
3.5 特征編碼 61
3.5.1 類別數(shù)據(jù) 61
3.5.2 時間數(shù)據(jù) 69
3.5.3 位置數(shù)據(jù) 73
3.5.4 文本數(shù)據(jù) 74
3.6 本章小結(jié) 86
第 4 章 構(gòu)建個性化特征標(biāo)簽 87
4.1 喜歡度——衡量用戶感興趣的程度 87
4.2 新聞特征標(biāo)簽 89
4.2.1 基本特征 89
4.2.2 類別特征 90
4.2.3 內(nèi)容特征 91
4.2.4 趨勢特征 100
4.2.5 新聞特征向量 102
4.3 用戶特征標(biāo)簽 103
4.3.1 基本特征 104
4.3.2 位置特征 104
4.3.3 興趣偏好特征 105
4.3.4 行為特征 109
4.3.5 價值特征 109
4.3.6 用戶特征向量 111
4.4 特征相似度計算 112
4.4.1 歐幾里得距離 113
4.4.2 曼哈頓距離 113
4.4.3 閔可夫斯基距離 113
4.4.4 馬氏距離 114
4.4.5 余弦相似度 114
4.4.6 皮爾遜相關(guān)系數(shù) 115
4.4.7 杰卡德相關(guān)系數(shù) 116
4.4.8 代碼示例 117
4.5 本章小結(jié) 121
第5章 交叉組合構(gòu)建新特征 122
5.1 特征組合 122
5.1.1 特征拼接 122
5.1.2 笛卡兒構(gòu)建 123
5.1.3 線性組合 123
5.1.4 多項式特征 124
5.1.5 代碼示例 125
5.2 特征選擇 128
5.2.1 方差選擇 129
5.2.2 相關(guān)選擇 129
5.2.3 卡方檢驗 131
5.2.4 主成分分析 133
5.2.5 樹模型選擇 136
5.2.6 代碼示例 143
5.3 本章小結(jié) 150
第 3 部 分 召 回 篇 151
第 6 章 機(jī)器學(xué)習(xí)模型 153
6.1 機(jī)器學(xué)習(xí)的定義 153
6.1.1 有監(jiān)督學(xué)習(xí) 154
6.1.2 無監(jiān)督學(xué)習(xí) 154
6.2 數(shù)據(jù)集 155
6.2.1 常用公開數(shù)據(jù)集 156
6.2.2 在線構(gòu)建數(shù)據(jù)集 156
6.2.3 數(shù)據(jù)集劃分 160
6.2.4 生成訓(xùn)練集 166
6.3 模型訓(xùn)練 168
6.4 模型保存 169
6.5 模型評價 170
6.5.1 分類模型評價 170
6.5.2 回歸模型評價 173
6.5.3 代碼示例 174
6.6 模型上線 175
6.7 本章小結(jié) 176
第 7 章 基于新聞熱度的推薦召回 177
7.1 新聞熱度 177
7.2 熱門推薦算法 179
7.3 代碼示例 179
7.4 本章小結(jié) 184
第 8 章 基于內(nèi)容的推薦召回 185
8.1 商品內(nèi)容 185
8.2 KNN 算法模型 186
8.2.1 KNN 發(fā)現(xiàn) 186
8.2.2 KNN 算法改進(jìn) 187
8.3 代碼示例 189
8.4 本章小結(jié) 199
第 9 章 基于標(biāo)簽的推薦召回 201
9.1 認(rèn)識標(biāo)簽 201
9.2 標(biāo)簽推薦算法 202
9.3 升級標(biāo)簽推薦算法 206
9.4 代碼示例 207
9.5 本章小結(jié) 211
第 10章 協(xié)同過濾推薦召回 212
10.1 UserCF 算法 212
10.1.1 算法原理 212
10.1.2 代碼示例 218
10.2 ItemCF 算法 223
10.2.1 算法原理 223
10.2.2 代碼示例 227
10.3 本章小結(jié) 232
第 11章 基于矩陣分解的推薦召回 233
11.1 數(shù)學(xué)知識 233
11.2 SVD 推薦算法 236
11.3 代碼示例 237
11.4 本章小結(jié) 241
第 12章 基 于LFM 的推薦召回 243
12.1 LFM 概述 243
12.2 LFM 推薦算法 244
12.3 代碼示例 247
12.4 本章小結(jié) 251
第 13章 多路召回融合策略 252
13.1 多路召回策略 252
13.2 融合策略 254
13.2.1 順序融合 255
13.2.2 平均加權(quán)融合 256
13.2.3 加權(quán)融合 256
13.2.4 動態(tài)加權(quán)融合 257
13.3 代碼示例 257
13.4 本章小結(jié) 266
第 4 部 分 排 序 篇 267
第 14章 線性模型排序算法 269
14.1 回歸模型 269
14.2 線性回歸模型 270
14.3 邏輯回歸模型 273
14.3.1 算法模型 273
14.3.2 模型參數(shù)估計 275
14.3.3 代碼示例 277
14.4 本章小結(jié) 283
第 15章 LR-GBDT 模型排序算法 284
15.1 CART 決策樹 284
15.2 集成學(xué)習(xí)模型 292
15.2.1 Bagging 算法 293
15.2.2 Boosting 算法 294
15.2.3 Stacking 算法 295
15.3 GBDT 模型 296
15.4 LR-GBDT 模型 299
15.4.1 模型算法推導(dǎo) 299
15.4.2 代碼示例 300
15.5 本章小結(jié) 306
第 16章 深度學(xué)習(xí)模型排序算法 307
16.1 神經(jīng)元 307
16.2 ANN 模型 309
16.3 模型訓(xùn)練 315
16.3.1 正向傳遞 317
16.3.2 反向傳遞 319
16.4 模型優(yōu)化 323
16.4.1 梯度優(yōu)化算法 324
16.4.2 Batch 歸一化 327
16.4.3 正則化 328
16.5 DNN 模型 329
16.5.1 模型構(gòu)建 329
16.5.2 代碼示例 331
16.6 Wide&Deep 模 型 335
16.6.1 Wide 部分 336
16.6.2 Deep 部分 337
16.6.3 聯(lián)合訓(xùn)練 337
16.6.4 Wide&Deep 模型案例 338
16.7 本章小結(jié) 339
第 5 部 分 系 統(tǒng) 篇 341
第 17章 推薦服務(wù)生成與管理 343
17.1 推薦系統(tǒng)的 Web服務(wù) 343
17.2 推薦服務(wù)的請求與響應(yīng) 345
17.2.1 HTTP 346
17.2.2 REST 編程風(fēng)格 349
17.2.3 基于Django 開發(fā)REST 風(fēng)格API 352
17.2.4 基于 Spring MVC 開發(fā) REST 風(fēng)格 API 354
17.3 生成推薦結(jié)果 355
17.3.1 離線生成 356
17.3.2 在線生成 360
17.3.3 在線+離線融合生成 361
17.3.4 代碼示例 364
17.4 生成方案對比 376
17.5 本章小結(jié) 377
第 18章 推薦系統(tǒng)效能評價 379
18.1 推薦系統(tǒng)評價 379
18.2 用戶調(diào)研 380
18.3 離線測試 382
18.3.1 離線測試方法 382
18.3.2 離線測試指標(biāo) 384
18.4 在線測試 384
18.4.1 A B 測 試 385
18.4.2 推薦系統(tǒng)的 AB 測試實驗 389
18.4.3 在線測試指標(biāo) 392
18.5 本章小結(jié) 398
第 19章 推薦系統(tǒng)架構(gòu)設(shè)計 400
19.1 系統(tǒng)架構(gòu)概述 400
19.2 系統(tǒng)邊界 405
19.3 系統(tǒng)總體架構(gòu) 407
19.4 依賴的第三方環(huán)境 413
19.4.1 大數(shù)據(jù)計算平臺 413
19.4.2 機(jī)器學(xué)習(xí)平臺 417
19.4.3 存儲平臺 420
19.4.4 數(shù)據(jù)查詢檢索平臺 421
19.4.5 Web 系統(tǒng)開發(fā)框架 421
19.5 系統(tǒng)技術(shù)架構(gòu) 422
19.5.1 數(shù)據(jù)流 424
19.5.2 離線層計算 426
19.5.3 近線層計算 427
19.5.4 在線層計算 429
19.5.5 技術(shù)架構(gòu)對比 432
19.6 系統(tǒng)部署架構(gòu) 434
19.7 系統(tǒng)建設(shè)步驟 438
19.8 本章小結(jié) 439