基于聚类分析算法的垃圾邮件识别

摘要/Abstract

摘要： 以往使用的垃圾邮件识别方法在面对如今更新速度快且种类繁多的分词时，很难精准地识别出邮件中的关键分词，识别方法的应用能力需要进一步提高。为此，提出一种基于聚类分析算法的垃圾邮件识别方法。首先，预处理邮件样本，得到邮件文本内容的关键分词，剔除停用词，根据分词在邮件文本中出现的频率计算出分词的权重；然后，结合邮件特征属性，构建邮件特征空间，将邮件特征量化；最后，提取出邮件特征并降维处理，将其作为聚类算法的输入，经过迭代计算输出结果从而完成垃圾邮件的识别。实验结果表明：设计的基于聚类分析算法的垃圾邮件识别方法在关键词提取与分词方面更加精确，并且能够准确地识别出垃圾邮件，说明设计的基于聚类分析算法的垃圾邮件识别方法的实际应用能力得到了提高。

关键词: 聚类算法, 垃圾邮件, 分词处理, 文本聚类

Abstract: For spam recognition methods used in the past, in the face of today’s fast updating and a wide variety of word segmentation, it is difficult to accurately identify the key word segmentation in a e-mail, the application ability of the recognition methods needs to be further improved. To this end, a spam recognition method based on cluster analysis algorithm is proposed. Firstly, we preprocess e-mail samples to get the key word segmentation of the e-mail text content, remove the stop words, and calculate the weight of the word segmentation according to the frequency of the word segmentation in the e-mail text. Then, combining with the e-mail feature attributes, we construct the e-mail feature space, and quantify the e-mail feature. Lastly, the features of the e-mail are extracted and processed for dimensionality reduction, which is used as the input of the clustering algorithm, and the output result is iteratively calculated to complete the identification of spam. The experimental results show that the designed spam e-mail recognition method based on cluster analysis algorithm is more accurate in keyword extraction and word segmentation, and can accurately identify spam e-mails, which shows the practical application ability of the designed spam e-mail recognition method based on cluster analysis algorithm has been improved.

Key words: clustering algorithm, spam, word segmentation, text clustering

盖璇. 基于聚类分析算法的垃圾邮件识别[J]. 计算机与现代化, 2020, 0(10): 17-22.

GAI Xuan. Spam E-mail Recognition Based on Cluster Analysis Algorithm[J]. Computer and Modernization, 2020, 0(10): 17-22.

参考文献

［1］胡小娟,刘磊,邱宁佳. 基于主动学习和否定选择的垃圾邮件分类算法［J］. 电子学报, 2018,46(1):203-209.
［2］赵星宇,赵志宏,王业沛,等. 基于聚类分析的微博广告发布者识别［J］. 计算机应用, 2018,38(5):1267-1271.
［3］黄海燕,刘晓明,孙华勇,等. 聚类分析算法在不确定性决策中的应用［J］. 计算机科学, 2019,46(S1):593-597.
［4］徐可,盖文妹,邓云峰. 基于LCS的应急决策文本相似性比对分析模型［J］. 中国安全生产科学技术, 2019,15(5):11-16.
［5］曲靖野,陈震,郑彦宁. 基于主题模型的科技报告文档聚类方法研究［J］. 图书情报工作, 2018,62(4):113-120.
［6］章蓉,陈谊,张梦录,等. 高维数据聚类可视分析方法综述［J］. 图学学报, 2020,41(1):44-56.
［7］谢秦,张清华,王国胤. 基于相似度量的自适应三支垃圾邮件过滤器［J］. 计算机研究与发展, 2019,56(11):2410-2423.
［8］刘月峰,张亚斌,苑江浩. 云环境下NB算法的垃圾邮件过滤研究［J］. 微电子学与计算机, 2018,35(8):60-63.
［9］曾玉生. 船舶通信网络垃圾邮件的检测分析［J］. 舰船科学技术, 2019,41(10):160-162.
［10］杨加,李笑难,张扬,等. 基于大数据分析的校园电子邮件异常行为检测技术研究［J］. 通信学报, 2018,39(S1):116-123.
［11］李振军,代强强,李荣华,等. 多维图结构聚类的社交关系挖掘算法［J］. 软件学报, 2018,29(3):839-852.
［12］谭章禄,彭胜男,王兆刚. 基于聚类分析的国内文本挖掘热点与趋势研究［J］. 情报学报, 2019,38(6):578-585.
［13］张琳,牟向伟. 基于Canopy+K-means的中文文本聚类算法［J］. 图书馆论坛, 2018,38(6):113-119.
［14］魏德志,陈福集,林丽娜. 基于MFIHC聚类和TOPSIS的微博热点发现方法［J］. 计算机应用研究, 2018,35(4):1014-1017.
［15］宋冬云,郑瑾,张祖平. 基于混合策略的中文短文本相似度计算［J］. 计算机工程与应用, 2018,54(12):116-120.
［16］洪壮壮,黄兆华,万仲保,等. 基于GMM的文本规则挖掘的粗糙集方法研究［J］. 中文信息学报, 2020,34(2):56-62.
［17］戴月明,王明慧,张明,等. SVD优化初始簇中心的K-means中文文本聚类算法［J］. 系统仿真学报, 2018,30(10):3835-3842.
［18］董祥祥,高昂,梁英,等. 动态社会网络数据发布隐私保护方法［J］. 计算机科学与探索, 2019,13(9):1441-1458.
［19］杨云,徐光侠,雷娟. 一种多分类的微博垃圾用户检测方法［J］. 重庆大学学报, 2018,41(8):44-55.
［20］陈龙,梁意文,谭成予. 基于自适应性分类器的垃圾邮件检测［J］. 计算机工程, 2018,44(5):194-200.
［21］肖琦,苏开宇. 基于随机森林的僵尸网络流量检测［J］. 微电子学与计算机, 2019,36(3):43-47.
［22］陈瑞东,赵凌园,张小松. 基于模糊聚类的僵尸网络识别技术［J］. 计算机工程, 2018,44(10):46-50.
［23］刘晓琴,王婕婷,钱宇华,等. 一种多强度攻击下的对抗逃避攻击集成学习算法［J］. 计算机科学, 2018,45(1):34-38.
［24］陈康,付华峥,向勇. 基于深度学习的恶意URL识别［J］. 计算机系统应用, 2018,27(6):27-33.
［25］王斌. 基于朴素贝叶斯算法的垃圾邮件过滤系统的研究与实现［J］. 电子设计工程, 2018,26(17):171-174.
［26］黄发明,殷坤龙,蒋水华,等. 基于聚类分析和支持向量机的滑坡易发性评价［J］. 岩石力学与工程学报, 2018,37(1):156-167.
［27］李奎,陈照,张洋子,等. 基于聚类分析和电磁辐射信号的电弧故障识别［J］. 电机与控制学报, 2018,22(5):94-101.
［28］陈佩. 主成分分析法研究及其在特征提取中的应用［D］. 西安:陕西师范大学, 2014.

[1]	敖博超, 范冰冰. 基于AP聚类算法的联邦学习聚合算法[J]. 计算机与现代化, 2024, 0(04): 5-11.
[2]	丁绪东, 杨东润, 刘慧, 赵星凯, 张迎, 孙梅, . 数据驱动的蒸发器在线建模方法[J]. 计算机与现代化, 2022, 0(11): 22-31.
[3]	申智, 徐丽, 符祥远. 基于改进YOLO v4光线模糊场景下交通标志检测[J]. 计算机与现代化, 2022, 0(07): 27-32.
[4]	刘锟, 曾曦, 邱梓珩, 陈周国, . 基于RoBERTa-WWM 和HDBSCAN的文本聚类算法[J]. 计算机与现代化, 2022, 0(03): 48-52.
[5]	冯俊淇, 张正军, 章曼, 严涛. 基于熵与邻域约束的模糊C均值改进算法[J]. 计算机与现代化, 2021, 0(11): 89-94.
[6]	蔡丽萍, 张晨晨, 李世宝, 刘建航. 移动群智感知中图片情境信息的聚类动态查找算法[J]. 计算机与现代化, 2021, 0(07): 43-48.
[7]	赵宇轩, 胡怀湘. 基于BiGRU-Attention-CNN模型的垃圾邮件检测方法[J]. 计算机与现代化, 2021, 0(04): 122-126.
[8]	郑钦浩, 杨贞, 杨振 . 面向车辆和行人检测的KM-SSD方法[J]. 计算机与现代化, 2021, 0(03): 51-56.
[9]	杨文亮, 冯慧芳. 基于出租车GPS轨迹的城市区域时空交互特征分析[J]. 计算机与现代化, 2021, 0(01): 87-93.
[10]	曹磊, 刘强, 姚辉. 基于改进聚类算法构建智慧医院的研究与实践[J]. 计算机与现代化, 2020, 0(12): 38-42.
[11]	常雪，石鸿雁. 基于改进蝙蝠算法优化的FCM聚类算法[J]. 计算机与现代化, 2020, 0(05): 29-.
[12]	张子晔1,刘玉龙1,呼北2. 基于数据虚拟化技术的多来源数据集成方法[J]. 计算机与现代化, 2019, 0(11): 18-.
[13]	余丽玲，金浩宇 . 基于K-均值聚类的RBF神经网络血糖浓度预测[J]. 计算机与现代化, 2019, 0(03): 9-.
[14]	邹臣嵩1,刘松2. 基于谱聚类的全局中心快速更新聚类算法[J]. 计算机与现代化, 2018, 0(10): 6-.
[15]	李霄野，李春生，李龙,张可佳. 基于LDA模型的文本聚类检索[J]. 计算机与现代化, 2018, 0(06): 7-.