基于信息熵和改进相似度协同过滤算法

摘要/Abstract

摘要： 为了减少协同过滤算法存在的噪音数据以及数据稀疏性问题，提高算法准确性，本文提出一种基于信息熵和改进相似度的协同过滤算法，使用用户信息熵模型来判断噪音数据，排除噪音数据对实验结果的干扰；使用面向稀疏数据的改进相似度计算方法，使用全部评分数据而不是依靠共同的评分项来计算，对缓解稀疏数据对推荐结果的精确性影响有很大帮助。实验结果表明，该算法能在一定程度上排除噪音数据对结果的影响，缓解数据稀疏对推荐结果精确性的干扰，提高该推荐算法的精确性，且缓解了传统推荐系统算法中常见的一些问题，与传统的协同过滤算法相比，该算法的精确性更高。

关键词: 协同过滤算法, 信息熵, 相似度

Abstract: In order to reduce the noisy data and data sparsity problems in the collaborative filtering algorithm, and improve the accuracy of the algorithm, a collaborative filtering algorithm based on information entropy and improved similarity is proposed. The user information entropy model is used to judge the noise data to eliminate the interference of the noise data on the experimental results; the improved similarity calculation method for sparse data is used, and all the score data are used. Rather than relying on common scoring items to calculate, it is of great help to alleviate the impact of sparse data on the accuracy of the recommended results. Experimental results show that the algorithm can eliminate the influence of noisy data on the results to a certain extent, alleviate the interference of data sparseness on the accuracy of recommendation results, improve the accuracy of the recommendation algorithm, and alleviate some common problems in traditional recommendation system algorithms. Compared with the traditional collaborative filtering algorithms, the accuracy of the algorithm is higher.

Key words: collaborative filtering algorithm, information entropy, similarity

黄皓, 陈荔. 基于信息熵和改进相似度协同过滤算法[J]. 计算机与现代化, 2021, 0(06): 29-34.

HUANG Hao, CHEN Li. A Collaborative Filtering Algorithm Based on Information Entropy and Improved Similarity[J]. Computer and Modernization, 2021, 0(06): 29-34.

参考文献

［1］苏庆,章静芳,林正鑫,等. 改进模糊划分聚类的协同过滤推荐算法［J］. 计算机工程与应用, 2019,55(5):118-123.
［2］王运,倪静,马刚. 基于FunkSVD矩阵分解和相似度矩阵的推荐算法［J］. 计算机应用与软件, 2019,36(12):245-250.

［3］李容,李明奇,郭文强. 基于改进相似度的协同过滤算法研究［J］. 计算机科学, 2016,43(12):206-208.

［4］王留芳,刘镇镇,魏蓝,等. 基于双因子混合加权相似度的协同过滤推荐算法［J］. 河南理工大学学报(自然科学版), 2020,39(6):133-138.
［5］薛亚非. 基于相似度的多重信息协同过滤算法优化仿真［J］. 计算机仿真, 2019,36(11):414-418.
［6］邢长征,金媛. 填补法和改进相似度相结合的协同过滤算法［J］. 计算机应用研究, 2019,36(6):1643-1645.
［7］罗辛,欧阳元新,熊璋,等. 通过相似度支持度优化基于K近邻的协同过滤算法［J］. 计算机学报, 2010,33(8):1437-1445.
［8］王玉珍,许艳茹,常丹. 基于SGA-RBF的协同过滤算法研究［J］. 统计与决策, 2019,35(4):75-79.
［9］王努努. 基于Softmax回归和矩阵分解的协同过滤推荐方法［J］. 计算机应用, 2019,39(S2):127-131.
［10］赵宇,刘凤,舒巧媛,等. 基于马尔可夫聚类和混合协同过滤的电视节目推荐［J］. 计算机应用与软件, 2020,37(2):218-225.
［11］岳希,唐聃,舒红平,等. 基于数据稀疏性的协同过滤推荐算法改进研究［J］. 工程科学与技术, 2020,52(1):198-202.
［12］罗园,陈希,周荣. 基于用户兴趣变化和社会化标注信息的协同过滤推荐方法［J］. 系统工程, 2020,38(4):151-158.
［13］袁泉,成振华,江洋. 基于知识图谱和协同过滤的电影推荐算法研究［J］. 计算机工程与科学, 2020,42(4):714-721.
［14］刘国丽,白晓霞,廉孟杰,等. 基于专家信任的协同过滤推荐算法改进研究［J］. 计算机工程与科学, 2019,41(10):1846-1853.
［15］崔岩,祁伟,庞海龙,等. 融合协同过滤和XGBoost的推荐算法［J］. 计算机应用研究, 2020,37(1):62-65.
［16］王井. 一种基于订阅记录的图书协同过滤推荐方法研究［J］. 情报科学, 2020,38(3):54-59.
［17］张锋,常会友. 使用BP神经网络缓解协同过滤推荐算法的稀疏性问题［J］. 计算机研究与发展, 2006(4):667-672.
［18］辛菊琴,蒋艳,舒少龙. 综合用户偏好模型和BP神经网络的个性化推荐［J］. 计算机工程与应用, 2013,49(2):57-60.
［19］杨远奇. 基于注意力机制的神经网络贝叶斯群组推荐算法［J］. 数字技术与应用, 2020,38(8):118-120.
［20］张艳红,俞龙. 基于噪声检测修正和神经网络的稀疏数据推荐算法［J］. 计算机应用与软件 ,2020,37(8):274-281.
［21］刘江冬,梁刚,冯程,等. 基于信息熵和时效性的协同过滤推荐［J］. 计算机应用, 2016,36(9):2531-2534.
［22］苏梦珂,杨煜普. 基于信息熵和用户行为一致性的协同过滤分组推荐［J/OL］. 计算机应用研究:1-6［2019-09-20］. http://kns.cnki.net/kcms/detail/51.1196.TP.20181009.1405.010.html.
［23］冯军美,冯晓毅,夏召强,等. 一种面向稀疏数据的比率相似度计算方法［J］. 西北大学学报(自然科学版), 2019,49(3):337-342.

[1]	杨骏1, 胡为1, 朱文福2. 基于改进MobileNetV3的视觉SLAM回环检测算法[J]. 计算机与现代化, 2024, 0(10): 21-26.
[2]	仁青卓玛1, 2, 3, 拥措1, 2, 3, 唐超超1, 2, 3. 面向藏汉神经机器翻译的数据筛选方法[J]. 计算机与现代化, 2024, 0(06): 19-24.
[3]	王宏杰, 徐胜超. 基于希尔伯特相似度的云平台异常传输数据聚类方法[J]. 计算机与现代化, 2023, 0(09): 27-31.
[4]	王鸿, 葛红. 基于注意力机制和语义相似度的跨模态哈希检索[J]. 计算机与现代化, 2023, 0(08): 44-53.
[5]	刘国丽, 徐洪楠, 谭有倩. 结合专家信任的协同过滤推荐算法研究[J]. 计算机与现代化, 2022, 0(11): 60-68.
[6]	田丰, 邓晓平, 张桂青, 王保义. 基于改进kNN算法与暂稳态特征的非侵入式负荷监测方法[J]. 计算机与现代化, 2022, 0(10): 29-35.
[7]	邹梦苑, 樊志强, 徐珞, 刘洁, 梁万路. Inf-ProA信息活动过程模型相似性度量方法[J]. 计算机与现代化, 2022, 0(02): 26-32.
[8]	耿化聪, 梁宏涛, 刘国柱. 基于知识图谱与协同过滤的饮食推荐算法[J]. 计算机与现代化, 2021, 0(08): 24-29.
[9]	舒鹏, 杜庆伟. 一种融合多维信息的移动社区发现方法[J]. 计算机与现代化, 2021, 0(05): 88-92.
[10]	邵孟巧, 吉顺慧, 张鹏程. AC-Rec:基于多维特征的科研合作者推荐方法[J]. 计算机与现代化, 2021, 0(03): 94-100.
[11]	杨泉. 基于Logistic函数的《同义词词林》语义相似度计算[J]. 计算机与现代化, 2021, 0(01): 111-119.
[12]	吴迎. 基于SIFT和最邻近匹配的商品图像相似度算法[J]. 计算机与现代化, 2020, 0(10): 69-75.
[13]	张帅, 杨雪霞. 一种基于熵理论的自适应水印嵌入算法[J]. 计算机与现代化, 2020, 0(09): 37-42.
[14]	李凡, 白尚旺, 党伟超, 潘理虎. 基于Do-Bi-LSTM模型的电子政务文本相似度评估模型[J]. 计算机与现代化, 2020, 0(07): 71-75.
[15]	张羽1,2，郭春1,2，申国伟1,2，平源3. 一种基于信息熵的IDS告警预处理方法[J]. 计算机与现代化, 2020, 0(05): 111-.