信息檢索是我們理解這個(gè)世界的重要手段之一,隨著技術(shù)的進(jìn)步,我們的檢索行為也在不斷變化。伴隨著人工智能時(shí)代的到來(lái),大數(shù)據(jù)的涌現(xiàn)以及萬(wàn)物互聯(lián)的場(chǎng)景對(duì)信息的獲取、理解和運(yùn)用提出了新的需求,特別是大模型的出現(xiàn),有望重塑信息檢索的架構(gòu)與技術(shù)體系。本書(shū)以信息檢索系統(tǒng)架構(gòu)為抓手,圍繞檢索系統(tǒng)的各個(gè)技術(shù)模塊展開(kāi)對(duì)神經(jīng)檢索前沿技術(shù)的介紹。一方面,幫助讀者快速了解傳統(tǒng)技術(shù)的發(fā)展現(xiàn)狀;另一方面,深入介紹深度學(xué)習(xí)技術(shù)給該研究問(wèn)題所帶來(lái)的主要變革和前沿成果。由此,讀者可以通過(guò)本書(shū)較為全面地了解信息檢索領(lǐng)域過(guò)去與當(dāng)前發(fā)展的面貌。
孫凝暉院士作序,張亞勤、翟成祥、李航聯(lián)合推薦!
學(xué)術(shù)大牛帶你了解信息檢索核心技術(shù)、大模型前沿應(yīng)用挑戰(zhàn)
作者團(tuán)隊(duì)既有文章又有產(chǎn)業(yè)應(yīng)用,代表技術(shù)成果:Top-K 排序?qū)W習(xí)、短文本話題建模、深度文本匹配、預(yù)訓(xùn)練檢索模型以及生成式檢索等
郭嘉豐
中國(guó)科學(xué)院計(jì)算技術(shù)研究所研究員、博士生導(dǎo)師,現(xiàn)任網(wǎng)絡(luò)數(shù)據(jù)科學(xué)與技術(shù)重點(diǎn)實(shí)驗(yàn)室主任,中國(guó)中文信息學(xué)會(huì)信息檢索專(zhuān)委會(huì)副主任,國(guó)家自然科學(xué)基金優(yōu)秀青年基金獲得者。長(zhǎng)期從事智能信息檢索與大數(shù)據(jù)分析方向研究,研究成果四次獲得本領(lǐng)域重要國(guó)際會(huì)議優(yōu)秀論文類(lèi)獎(jiǎng)勵(lì)、兩次獲得國(guó)家獎(jiǎng)勵(lì)。
蘭艷艷
清華大學(xué)智能產(chǎn)業(yè)研究院研究員,曾任中國(guó)科學(xué)院計(jì)算技術(shù)研究所研究員,主要研究方向?yàn)樾畔z索、人工智能賦能科學(xué)計(jì)算和智能藥物研發(fā)。研究成果獲 SIGIR 優(yōu)秀學(xué)生論文獎(jiǎng)和 CIKM 優(yōu)秀論文提名獎(jiǎng),入選國(guó)家萬(wàn)人計(jì)劃青年拔尖人才,擔(dān)任中國(guó)中文信息學(xué)會(huì)信息檢索專(zhuān)委會(huì)秘書(shū)長(zhǎng),Artificial Intelligence Associate Editor。
程學(xué)旗
中國(guó)科學(xué)院計(jì)算技術(shù)研究所副所長(zhǎng),國(guó)家杰出青年科學(xué)基金獲得者,國(guó)家高層次人才,北京學(xué)者,CCF 會(huì)士。任 CCF大數(shù)據(jù)專(zhuān)家委員會(huì)秘書(shū)長(zhǎng)、CCF 中國(guó)數(shù)字經(jīng)濟(jì) 50 人論壇秘書(shū)長(zhǎng)、中國(guó)中文信息學(xué)會(huì)副理事長(zhǎng)。長(zhǎng)期從事網(wǎng)絡(luò)數(shù)據(jù)科學(xué)、大數(shù)據(jù)系統(tǒng)、社會(huì)計(jì)算、Web 信息檢索與數(shù)據(jù)挖掘等方向研究。研究成果六次獲得本領(lǐng)域top級(jí)國(guó)際學(xué)術(shù)會(huì)議優(yōu)秀論文獎(jiǎng),關(guān)鍵技術(shù)與系統(tǒng)成果四次獲得國(guó)家科技獎(jiǎng)勵(lì)。
第 1章 引言 1
1.1 信息檢索技術(shù)的發(fā)展歷史 2
1.2 信息檢索的代表性任務(wù) 4
1.2.1 ad-hoc 檢索 5
1.2.2 問(wèn)答 6
1.2.3 社區(qū)問(wèn)答 7
1.2.4 自動(dòng)對(duì)話 8
1.3 信息檢索的評(píng)價(jià)方法 9
1.4 深度學(xué)習(xí)與信息檢索的結(jié)合 12
第 2章 深度文本索引 17
2.1 基礎(chǔ)知識(shí) 19
2.1.1 基于符號(hào)的文檔表示方法 20
2.1.2 面向符號(hào)表示的文檔索引方法 25
2.2 深度文本索引方法 32
2.2.1 基于稠密向量的文檔表示 33
2.2.2 稠密向量索引 36
2.3 小結(jié) 57
第3章 深度文本檢索 59
3.1 基礎(chǔ)知識(shí) 61
3.1.1 問(wèn)題形式化 61
3.1.2 經(jīng)典詞項(xiàng)檢索模型 62
3.1.3 早期語(yǔ)義檢索方法 66
3.2 深度檢索模型 70
3.2.1 基于稀疏向量表示的檢索模型 71
3.2.2 基于稠密向量表示的檢索模型 75
3.2.3 稀疏– 稠密向量混合檢索方法 90
3.3 小結(jié) 94
第4章 深度文本匹配 96
4.1 基礎(chǔ)知識(shí) 98
4.1.1 問(wèn)題形式化 98
4.1.2 學(xué)習(xí)目標(biāo) 99
4.2 深度匹配模型 104
4.2.1 對(duì)稱(chēng)與非對(duì)稱(chēng)架構(gòu) 104
4.2.2 注重表示與注重交互的架構(gòu) 108
4.2.3 單粒度與多粒度的架構(gòu) 112
4.3 小結(jié) 115
第5章 深度關(guān)系排序 116
5.1 基礎(chǔ)知識(shí) 117
5.1.1 問(wèn)題定義和評(píng)價(jià)指標(biāo) 117
5.1.2 傳統(tǒng)關(guān)系排序方法 120
5.2 深度關(guān)系排序模型 133
5.2.1 基于貪婪選擇的深度關(guān)系排序模型 133
5.2.2 基于全局決策的深度關(guān)系排序模型 142
5.3 小結(jié) 158
第6章 深度查詢(xún)理解 160
6.1 傳統(tǒng)的查詢(xún)理解方法 161
6.2 基于深度學(xué)習(xí)的查詢(xún)改進(jìn) 163
6.2.1 基于深度學(xué)習(xí)的查詢(xún)修正 164
6.2.2 基于深度學(xué)習(xí)的查詢(xún)擴(kuò)展 167
6.3 基于深度學(xué)習(xí)的查詢(xún)推薦 170
6.4 基于深度學(xué)習(xí)的查詢(xún)意圖識(shí)別 173
6.4.1 基于深度學(xué)習(xí)的查詢(xún)分類(lèi) 173
6.4.2 基于深度學(xué)習(xí)的查詢(xún)聚類(lèi) 175
6.5 小結(jié) 177
第7章 交互式信息檢索 178
7.1 基礎(chǔ)知識(shí) 179
7.1.1 交互的概念 179
7.1.2 合作博弈框架 181
7.2 深度交互式信息檢索模型 193
7.2.1 代理搜索模型 194
7.2.2 會(huì)話搜索模型 200
7.2.3 對(duì)話搜索模型 203
7.3 小結(jié) 207
第8章 基于預(yù)訓(xùn)練的信息檢索 209
8.1 基礎(chǔ)預(yù)訓(xùn)練模型 211
8.1.1 面向判別式任務(wù)的預(yù)訓(xùn)練模型 211
8.1.2 面向生成式任務(wù)的預(yù)訓(xùn)練模型 215
8.2 面向檢索的預(yù)訓(xùn)練模型 217
8.2.1 預(yù)訓(xùn)練表示模型 218
8.2.2 預(yù)訓(xùn)練交互模型 222
8.3 小結(jié) 226
參考文獻(xiàn)(圖靈社區(qū)下載)