基于深度Q网络的垃圾邮件文本分类方法

摘要/Abstract

摘要： 电子邮件广泛应用于人们的工作生活中。然而，充斥着虚假信息、恶意软件和营销广告等内容的垃圾邮件也以电子邮件为载体进行传播。这不仅给人们带来不便，而且也占用和耗费大量的网络资源，甚至严重地威胁信息安全。因此，有效地识别、过滤垃圾邮件是一项重要的工作。目前，垃圾邮件过滤方法主要包括基于邮件来源的识别和基于内容的识别，但大部分方法效果不佳且效率不高，并且需要耗费大量的人力标注特征，也跟不上垃圾邮件内容和形式等的改变。近年来，有研究人员将深度强化学习用在自然语言处理上并取得了重大的成果，鉴于此，本文提出基于深度Q网络的垃圾邮件文本分类方法。该方法在对邮件文本进行预处理、分词以及用Word2vec模型得到词向量的基础上用深度Q网络对垃圾邮件进行过滤，充分利用Word2vec中的CBOW模型得到邮件文本中的每个分词对应的词向量，直接用深度Q网络对得到的词向量集进行处理，无需提取邮件的特征，避免了由于特征提取的偏差带来的负面影响，提高了垃圾邮件过滤的效率和精确率。实验结果验证了本文方法的有效性。

关键词: 电子邮件, 深度Q网络, Word2vec模型, 文本分类

Abstract: Electronic mail is widely used in people’s daily life. It also serves, however, as a carrier for the proliferation of spam mails filled with false information, malicious software and undesired advertisements. Spam mails not only bring inconvenience but also unnecessarily consume a lot of network resource and even pose a huge threat to their information safety. Therefore, it remains an important task to effectively identify and filter spam mails. Current filtering methods are mainly based on identifying the source and content of mails, which are not effective and require a large amount of artificial labeling and are not sensitive to the changes of spam mails’ content or format. In recent years, researchers have applied deep reinforcement learning to the natural language processing and obtained good results. Therefore, this paper presents a classification method for identifying spam mails based on deep Q-network. The mail text first is preprocessed, then is segmented and is transformed into word vectors using Word2vec model. The deep Q-network is used to filter spam mails based on these word vectors in order to improve efficiency and accuracy. The method makes full use of the CBOW model in Word2vec to obtain the word vector corresponding to each participle in the mail text, and directly processes the obtained word vector with the deep Q-network, without extracting the features of the mail, so as to avoid the negative impact caused by the deviation of feature extraction. The experiment results verify the effectiveness of the method.

Key words: electronic mail, deep Q-network, Word2vec, text classification

中图分类号:

TP393

景栋盛, 薛劲松, 冯仁君. 基于深度Q网络的垃圾邮件文本分类方法[J]. 计算机与现代化, 2020, 0(06): 89-.

JING Dong-sheng, XUE Jing-song, FENG Ren-jun. Spam Text Classification Method Based on Deep Q-network[J]. Computer and Modernization, 2020, 0(06): 89-.

参考文献

［1］胡小娟,刘磊,邱宁佳. 基于主动学习和否定选择的垃圾邮件分类算法［J］. 电子学报, 2018,46(1):203-209.
［2］翟军昌,车伟伟. 一种基于条件熵的垃圾邮件过滤算法［J］. 计算机与现代化, 2014(2):129-132.
［3］杜猛. 反垃圾邮件技术分析和发展研究［J］. 电子技术与软件工程, 2015(16):34.
［4］赵静凯,张佳,卜宏,等. 基于信件源的垃圾邮件过滤［J］. 计算机工程与应用, 2004,40(9):139-142.
［5］汤金波,孙力. 基于规则的垃圾邮件过滤算法比较研究［J］. 网络安全技术与应用, 2016(6):57-58.
［6］赵晓丹,徐燕. 垃圾邮件分类技术对比研究［J］. 信息网络安全, 2014(2):75-80.
［7］石铁峰. 支持向量机在电子邮件分类中的应用研究［J］. 计算机仿真, 2011,28(8):156-158.
［8］李书全. 基于贝叶斯分类算法的中文垃圾邮件过滤技术的研究［D］. 合肥:合肥工业大学, 2008.
［9］韩敏,李秋锐. 基于KNN算法的垃圾邮件过滤方法分析［J］. 计算机光盘软件与应用, 2012(7):179-180.
［10］翟军昌,秦玉平,车伟伟. 应用特征词分类贡献的垃圾邮件过滤研究［J］. 计算机工程与应用, 2012,48(34):116-119.
［11］王青松,魏如玉. 基于短语的贝叶斯中文垃圾邮件过滤方法［J］. 计算机科学, 2016,43(4):256-259.
［12］于洪霞. 基于SVM的中文垃圾邮件过滤［D］. 哈尔滨:哈尔滨工程大学, 2009.
［13］李培国. 基于人工神经网的中文垃圾邮件过滤器的设计与实现［D］. 广州:暨南大学, 2007.
［14］WANG A L, WANG Y, CHEN Y S. Hyperspectral image classification based on convolutional neural network and random forest［J］. Remote Sensing Letters, 2019,10(11):1086-1094.
［15］李艳涛,冯伟森. 堆叠去噪自编码器在垃圾邮件过滤中的应用［J］. 计算机应用, 2015,35(11):3256-3260.
［16］王永昌,朱立谷. 面向Twitter情感分析的文本预处理方法研究［J］. 中国传媒大学学报(自然科学版), 2019,26(2):31-38.
［17］韩冬煦,常宝宝. 中文分词模型的领域适应性方法［J］. 计算机学报, 2015,38(2):272-281.
［18］梁喜涛,顾磊. 中文分词与词性标注研究［J］. 计算机技术与发展, 2015,25(2):175-180.
［19］常建秋,沈炜. 基于字符串匹配的中文分词算法的研究［J］. 工业控制计算机, 2016,29(2):115-116.
［20］施询之,孙宁远,李骋罡. 基于微博信息库和文本分词的人机对话模型设计［J］. 计算机与现代化, 2013(11):207-209.
［21］马金娜,田大钢. 基于SVM的中文文本自动分类研究［J］. 计算机与现代化, 2006(8):5-8.
［22］郭振,张玉洁,苏晨,等. 基于字符的中文分词、词性标注和依存句法分析联合模型［J］. 中文信息学报, 2014,28(6):1-8.
［23］刘遥峰,王志良,王传经. 中文分词和词性标注模型［J］. 计算机工程, 2010,36(4):17-19.
［24］路金泉,徐开勇,戴乐育. 基于文本过滤的贝叶斯分类算法的改进［J］. 计算机与现代化, 2016(9):100-103.
［25］LAI S W, LIU K, HE S Z, et al. How to generate a good word embedding?［J］. IEEE Intelligent Systems, 2016,31(6):5-14.
［26］杨楠,李亚平. 基于Word2vec模型特征扩展的Web搜索结果聚类性能的改进［J］. 计算机应用, 2019,39(6):1701-1706.
［27］MIKOLOV T, CHEN K, CORRADO G, et al. Efficient estimation of word representations in vector space［J］. arXiv preprint arXiv:1301.3781, 2013.
［28］朱书眉. 基于词袋模型和关联规则的医学图像分类研究［D］. 南京:南京邮电大学, 2016.
［29］SUTTON R S, BARTO A G. Reinforcement Learning: An Introduction［M］. Cambridge: MIT Press, 2018.
［30］WATKINS C J C H, DAYAN P. Technical Note: Q-learning［J］. Machine Learning, 1992,8(3-4):279-292.
［31］SCHAUL T, QUAN J, ANTONOGLOU I, et al. Prioritized experience replay［J］. arXiv preprint arXiv:1511.05952, 2016.
［32］刘全,翟建伟,章宗长,等. 深度强化学习综述［J］. 计算机学报, 2018,41(1):1-27.
［33］朱斐,吴文,刘全,等. 一种最大置信上界经验采样的深度Q网络方法［J］. 计算机研究与发展, 2018,55(8):1694-1705.
［34］尹宝才,王文通,王立春. 深度学习研究综述［J］. 北京工业大学学报, 2015,41(1):48-59.
［35］MNIH V, KAVUKCUOGLU K, SILVER D, et al. Human-level control through deep reinforcement learning［J］. Nature, 2015,518(7540):529-533.
［36］朱斐,吴文,伏玉琛,等. 基于双深度网络的安全深度强化学习方法［J］. 计算机学报, 2019,42(8):1812-1826.
［37］GALLAGHER B, ELIASSI-RAD T. Classification of HTTP Attacks: A Study on the ECML/PKDD 2007 Discovery Challenge［R］. Livermore: Lawrence Livermore National Laboratory, 2009.
［38］王莹. 基于深度学习的文本分类研究［D］. 沈阳:沈阳工业大学, 2019.

[1]	周宪溪, 牟莉. 基于改进TF-IDF和AGLCNN的新闻长文本分类模型[J]. 计算机与现代化, 2024, 0(08): 120-126.
[2]	张可1, 艾中良2, 刘忠麟3, 顾平莉1, 刘学林4. 基于多元组匹配损失的司法论辩理解方法[J]. 计算机与现代化, 2024, 0(06): 115-120.
[3]	徐涯昕, 何泽恩, 徐绪堪. 基于CNN-BiLSTM网络的数控机床故障文本自动分类[J]. 计算机与现代化, 2023, 0(04): 7-14.
[4]	张军, 邱龙龙. 一种基于BERT和池化操作的文本分类模型[J]. 计算机与现代化, 2022, 0(06): 1-7.
[5]	赵延平, 王芳, 夏杨. 基于支持向量机的短文本分类方法[J]. 计算机与现代化, 2022, 0(02): 92-96.
[6]	郭书武, 陈军华. 基于深度学习的教材德目分类方法[J]. 计算机与现代化, 2021, 0(09): 106-112.
[7]	贾澎涛, 孙炜. 基于深度学习的文本分类综述[J]. 计算机与现代化, 2021, 0(07): 29-37.
[8]	代继鹏, 邵峰晶, 孙仁诚. 基于改进CHI和TF-IDF的短文本分类的研究[J]. 计算机与现代化, 2021, 0(06): 6-11.
[9]	尼格拉木·买斯木江, 艾孜尔古丽·玉素甫. 基于BERT及双向GRU模型的慕课用户评论情感倾向性分析[J]. 计算机与现代化, 2021, 0(04): 20-26.
[10]	周灵, 张英俊, 潘理虎. 一种基于情感特征的短文本分类方法[J]. 计算机与现代化, 2020, 0(07): 80-84.
[11]	彭路1,朱君2,邹云峰2. 基于深度神经网络的电力客户诉求预判[J]. 计算机与现代化, 2020, 0(05): 22-.
[12]	牛雪莹. 结合主题模型词向量的CNN文本分类[J]. 计算机与现代化, 2019, 0(10): 7-.
[13]	李富星，蒙祖强 . 一种改进的类别区分词特征选择算法[J]. 计算机与现代化, 2019, 0(03): 73-.
[14]	马建红，刘广森，姚爽，杨智. 面向短文本的特征选择及文本表示[J]. 计算机与现代化, 2019, 0(03): 95-.
[15]	张浩1,2，钟敏1，2. 基于Sentence-LDA主题模型的短文本分类[J]. 计算机与现代化, 2019, 0(03): 102-.