收稿日期:
2016-03-22
出版日期:
2016-09-12
发布日期:
2016-09-13
作者简介:
路金泉(1991-),男,山西临汾人,解放军信息工程大学硕士研究生,研究方向:信息安全; 徐开勇(1963-),男,研究员,博士,研究方向:信息安全,可信计算; 戴乐育(1990-),男,助教,研究方向:信息安全,密码协处理器。
Received:
2016-03-22
Online:
2016-09-12
Published:
2016-09-13
摘要: 针对传统贝叶斯分类算法无法满足复杂网络文本过滤需求,提出一种多词贝叶斯分类算法(Multi Word-Bayes,MWB)。该算法一方面引入了特征权重(Term Frequency-Inverse Document Frequency,TF-IDF)的计算思想,优化了传统贝叶斯分类算法只考虑词频不考虑文本间关系的问题;另一方面将词与词间的关系作为文本分类的重要参考项,克服了传统贝叶斯分类算法在分类器训练上对语义分析的忽视。实验结果表明,MWB在垃圾文本过滤上具有更好的分类性能。
中图分类号:
路金泉,徐开勇,戴乐育. 基于文本过滤的贝叶斯分类算法的改进[J]. 计算机与现代化, doi: 10.3969/j.issn.1006-2475.2016.09.022.
LU Jin-quan, XU Kai-yong,Dai Le-yu. Improvement of Bayes Classification Algorithm Based on Text Filtering[J]. Computer and Modernization, doi: 10.3969/j.issn.1006-2475.2016.09.022.
[1] 中国互联网信息中心. 中国互联网信息中心第36次中国互联网络发展状况统计报告[R/OL]. http://www.cnnic.cn/hlwfzyj/hlwxzbg/hlwtjbg/201507/P0201507235495006670-87.pdf, 2015-07. [2] 徐健锋,许圆,许元辰,等. 基于语义理解和机器学习的混合的中文文本情感分类算法框架[J]. 计算机科学, 2015,42(6):61-66. [3] 石海明,曾华峰. 科技与战争视角下的国家认知空间安全战略[J]. 国防科技, 2014,35(3):83-87. [4] Luo Xi, Ohyama Wa, Wakabayashi T, et al. Improvement of automatic Chinese text classification by combining multiple features[J]. Transactions on Electrical and Electronic Engineering, 2015,10(2):166-174. [5] 许珂,蒙祖强,林啓峰. 基于语义关联和信息增益的TFIDF改进算法研究[J]. 计算机应用研究, 2012,29(2):557-560. [6] 马兆才. 文本分类中的两阶段特征降维[J]. 甘肃科技, 2014,30(20):27-29. [7] 邓一贵,伍玉英. 基于文本内容的敏感词决策树信息过滤算法[J]. 计算机工程, 2014,40(9):300-304. [8] 黄贤英,陈红阳,刘英涛,等. 一种新的微博短文本特征词选择算法[J]. 计算机工程与科学, 2015,37(9):1761-1767. [9] 中国科学院计算技术研究所. 汉语词法分析系统ICTCLAS[EB/OL]. http://www.ict.ac.cn/jszy/jsxk_zlxk/mfxk/200706/t20070628_2121143.html, 2016-03-21. [10]郑炜,沈文,张英鹏. 基于改进朴素贝叶斯算法的垃圾邮件过滤器的研究[J]. 西北工业大学学报, 2010,28(4):622-627. [11]张宁,贾自艳,史忠植. 使用KNN算法的文本分类[J]. 计算机工程, 2005,31(8):171-172. [12]赵辉. 支持向量机分类方法及其在文本分类中的应用研究[D]. 大连:大连理工大学, 2005. [13]刘钢. 基于神经网络的文本分类系统NNTCS的设计和实现[D]. 北京:中国科学院(软件研究所), 2003. [14]张青. 决策树分类算法的研究与改进[D]. 郑州:郑州大学, 2002. [15]Otsuka T, Deng Deyue, Ito T. Text filtering for harmful document classification using three-word co-occurrence and large-scale data processing[J]. Electronics and Communications in Japan, 2015,98(10):168-175. [16]Guo Xiaoli, Sun Huiyu, Zhou Tiehua. SAW classification algorithm for Chinese text classification[J]. Sustainability, 2015,7(3):2338-2352. [17]Manning C D, Raghavan P, Schütze H. Introduction to Information Retrieval[M]. 王斌,译. 北京:人民邮电出版社, 2010:175-199. [18]数据堂. 新浪微博积极、消极、矛盾微博数据[EB/OL]. http://www.datatang.com/data/47209, 2015-05-07. |
[1] | 林 威. 基于自监督学习和数据回放的新闻推荐模型增量学习方法[J]. 计算机与现代化, 2023, 0(12): 1-6. |
[2] | 柴 荔, 王 萧, 龚嘉豪, 汪 洋, 吉顺慧, 张鹏程. 面向供应链的共识算法研究综述[J]. 计算机与现代化, 2023, 0(11): 22-27. |
[3] | 王重阳, 庄 毅. 基于SDN和改进CSA算法的多作业集群的负载均衡算法[J]. 计算机与现代化, 2023, 0(11): 28-35. |
[4] | 王光辉, 程功旭, 李 青. 基于区块链技术的电力物资共享云仓设计[J]. 计算机与现代化, 2023, 0(10): 99-106. |
[5] | 沈加炜, 陆一鸣, 陈晓艺, 钱美玲, 陆卫忠, . 基于深度学习的人体行为检测方法研究综述[J]. 计算机与现代化, 2023, 0(09): 1-9. |
[6] | 顾成伟, 丁 勇, 李登华. 基于计算机视觉的工业厂区人员安全警戒系统[J]. 计算机与现代化, 2023, 0(09): 20-26. |
[7] | 刘瑞雪, 李 文, 刘 芳, 杜守国. 用于具有缺失值的时间序列预测的张量自回归补全算法[J]. 计算机与现代化, 2023, 0(09): 51-58. |
[8] | 毛明扬, 徐胜超. 面向粒子群优化BP神经网络的粗糙集连续属性离散化算法[J]. 计算机与现代化, 2023, 0(09): 115-119. |
[9] | 陈嘉敏, 张伯泉, 麦海鹏. 基于特征融合的海马体分割[J]. 计算机与现代化, 2023, 0(08): 1-6. |
[10] | 申诗凡, 王立松, 王鑫梦, 秦小麟. 面向多机器人系统的元组空间协同模型[J]. 计算机与现代化, 2023, 0(08): 98-106. |
[11] | 钟松影. 基于关联规则Apriori算法的纺织原料成本预警[J]. 计算机与现代化, 2023, 0(07): 43-43. |
[12] | 钟林峰, 李彦锋, 张桂鹏, 刘文印. 基于区块链的去中心化网络购物数据共享方案[J]. 计算机与现代化, 2023, 0(07): 61-68. |
[13] | 陆伟强. 基于微服务的民机工业软件架构设计[J]. 计算机与现代化, 2023, 0(07): 73-78. |
[14] | 张军, 苏文浩. 基于LZO的Hadoop文件归档优化方法[J]. 计算机与现代化, 0, (): 1-6. |
[15] | 刘佩. 基于数据挖掘的医保控费系统[J]. 计算机与现代化, 2023, 0(06): 89-94. |
阅读次数 | ||||||
全文 |
|
|||||
摘要 |
|
|||||