本書基于可疑用戶度量的思想,從基于內存和基于模型的推薦技術兩方面展開研究,致力于設計一系列魯棒性高、精度損失少的協(xié)同過濾推薦算法。
伊華偉,女,1978年8月生,遼寧朝陽人;2017年1月畢業(yè)于燕山大學計算機應用技術專業(yè),獲工學博士學位;遼寧工業(yè)大學電子與信息工程學院副教授、碩士生導師。主要系統(tǒng)、可信計算及信息等方面的科學研究,先后在《軟件學報》《電子與信息學報》《Journal of Intelligent Information Systems》等國內外高期刊發(fā)表相關學術論文20余篇;主持完成遼寧省自然科學項目、遼寧省教育廳科學研究項目2項,參與國家自然科學項目、遼寧省自然科學項目4項;獲得各類授權專利20余件。
第1章緒論
1.1研究背景和意義
1.2技術研究現狀
1.2.1基于內存的算法研究現狀
1.2.2基于模型的算法研究現狀
1.2.3目前存在的問題
1.3主要研究內容
1.4本書組織結構
第2章 基于k-距離和項目類別信息的方法
2.1 引 言
2.2相關理論
2.2.1基于用戶的協(xié)同算法
2.2.2基于k鄰的離群點檢測
2.3 基于用戶的協(xié)同系統(tǒng)脆弱性分析
2.4基于k-距離的用戶可疑度計算
2.5融合用戶可疑度和項目類別信息的缺失值填充
2.6 算法
2.7本章小結
第3章 基于可疑用戶度量和多維信任的方法
3.1引言
3.2相關向量機
3.3基于相關向量機的可疑用戶度量
3.4可靠多維信任模型
3.4.1信任屬性的挖掘
3.4.2可靠多維信任模型的構建
3.5算法
3.6本章小結
第4章基于模糊核聚類和支持向量機的方法
4.1引言
4.2相關理論
4.2.1基本矩陣分解技術
4.2.2模糊核聚類
4.2.3支持向量機
4.3基于矩陣分解的協(xié)同系統(tǒng)脆弱性分析
4.4基于模糊核聚類的攻擊概貌檢測
4.5基于支持向量機的攻擊概貌識別
4.6算法
4.7本章小結
第5章基于可疑用戶識別和Tukey M-估計量的方法
5.1引言
5.2融合可疑用戶識別的可鄰模型
5.2.1可疑用戶識別
5.2.2 可鄰模望
5.3 基于Tukey M-估計量的魯棒矩陣分知模H
5.4算法
5.5參數值的確定
5.6本章小結
第6章 實驗與評價
6.1實驗數據集
6.2評價指標
6.3實驗設置
6.4基于k-距離和項目類別信息的算法性能評價
6.4.1精度的對比及分析
6.4.2 算法魯棒性的對比及分析
6.5 基于可疑用戶度量和多維信任的算法性能評價
6.5.1精度的對比及分析
6.5.2算法魯棒性的對比及分析
6.6 基于模糊核聚類和支持向量機的算法性能評價
6.6.1精度的對比及分析
6.6.2算法魯棒性的對比及分析
6.7基于可疑用戶識別和Tukey M-估計量的算法性能評價
6.7.1精度的對比及分析
6.7.2算法魯棒性的對比及分析
6.8 本章小結
結論
參考文獻
第pan>章緒論
1.pan style="font-family:宋體">研究背景和意義
隨著互聯(lián)網技術突飛的發(fā)展,人們喜歡在互聯(lián)網上通過電子商務網站來購買各種各樣的商品。然而,隨著網上交易用戶的日益增多和商品信息量的極大豐富,出現了嚴重的信息超載(Information Overload)現象[1-3]。所以,人們在享受電子商務帶來便利的同時,也面臨著一個嚴峻的挑戰(zhàn)——如何在信息的海洋中、快捷地找到自己真正所需的商品信息。因系統(tǒng)(Recommender Systems)[4-7]應運而生,它與電子商務系行結合,能夠有效地解決信息超載問題。與傳統(tǒng)的搜索引擎不系統(tǒng)能根據用戶的個人資料、商品購買記錄以及對商品的評價等歷史信息來分析用戶的個人興趣、愛好,快速找出并主動為其可能感興趣的商品信息,從而在實現個的同時提高用戶檢索信息的效率。
1997年,Resnick和Varian[8]:“”目前,電子商務網站是個系統(tǒng)的一個主要應用領域,比如Amazon、豆瓣網、eBay和網等都不同程度地使用了多種形技術[9],主要有基于內[10-3]、協(xié)同[14]、基于知[15-16]和[17-18]等。其中協(xié)同(CollaborativeFiltering Recommendation)技術是早出現、理論為成熟和應用為廣泛的技術之一[19-20]。本書內容即基于協(xié)同展開系列相關研究工作之成算法決定了系統(tǒng)的性能好壞,系統(tǒng)的核心部分[21-2]。協(xié)同算法分為基于內算法(Memory-based RecommendationAlgorithm)和基于模算法(Model-based Recommendation Algorithm)兩大類,其中基于內算法又可分為基于用算法(User-basedRecommendation Algorithm)[23-24]和基于項目的] 行 đ __m-based Recom.mendaion Algorithm)[25-26]。協(xié)同 算法 首先計算系 統(tǒng)中 用戶(項目)間的相似度,然后依據相似度找出與目標用戶(項目)相似的鄰居集合,
后根鄰用戶對目標項目的評分(目標用戶鄰項目的評分)為目標用戶。雖然基于內算法易于實精度高,但相似度計算和尋鄰的過程中需要遍歷整個評分矩陣,所以算法運行效率會隨著評分效據的增多而降低,實時性不高;谀K惴ㄊ紫冗\用統(tǒng)計或機器學習等方法對用戶-項目評分數行訓練得到一個模型,此過程通常離線完成;然后利用該模型在線為目標用戶。相比基于內算法來說,基于模算法實時性較高。常見的基于模算法有貝葉斯模型[27]聚類模型[28-29]、回歸模型[30]、基于Markov鏈的模型[31]、潛在語義分析模型[32-34]和目前應用廣泛的基于矩陣分解的潛在因子模型[35]等。協(xié)同算法基于用戶對項目的評分數據來完成對目標用,
因此,收集到的評分數據越多,越能彰顯用戶的喜好,越能得到高質結果,這就系統(tǒng)必須具有較強的開放性,以充分調動用戶參與評分的積極性[36]。然而,一些惡意用戶從個人利益角度出發(fā),系統(tǒng)的開放性,人為地將大量虛假用戶評分注入到系統(tǒng)中,企圖影響用戶的購買行為。由此可見,雖然系統(tǒng)可用的評分數據增加了,但是數據質量卻嚴重降低,使系結果受到很大影響。這種將虛假用戶概貌注系統(tǒng)中干擾系統(tǒng)的過程,使系結果產生偏差的行為被稱為托攻擊(ShillingAttacks),也叫概貌注入攻擊(Profile Infection Attacks)攻擊(Recom-mendation Attacks)[37-38][39]:隨機攻擊(Random Attack)、均值攻擊(Average Attack)、流行攻擊(BandwagonAttack)和AoP攻擊(Average over Popular Items Attack)等。 根據攻擊的目的一步將托攻擊分為推攻擊(Push Attack)和核攻擊(Nuke Attack)兩類,分別用來提高和降低目標項目被的頻率。
……