计算机与现代化 ›› 2016, Vol. 0 ›› Issue (9): 100-103+108.doi: 10.3969/j.issn.1006-2475.2016.09.022
收稿日期:
2016-03-22
出版日期:
2016-09-12
发布日期:
2016-09-13
作者简介:
路金泉(1991-),男,山西临汾人,解放军信息工程大学硕士研究生,研究方向:信息安全; 徐开勇(1963-),男,研究员,博士,研究方向:信息安全,可信计算; 戴乐育(1990-),男,助教,研究方向:信息安全,密码协处理器。
Received:
2016-03-22
Online:
2016-09-12
Published:
2016-09-13
摘要: 针对传统贝叶斯分类算法无法满足复杂网络文本过滤需求,提出一种多词贝叶斯分类算法(Multi Word-Bayes,MWB)。该算法一方面引入了特征权重(Term Frequency-Inverse Document Frequency,TF-IDF)的计算思想,优化了传统贝叶斯分类算法只考虑词频不考虑文本间关系的问题;另一方面将词与词间的关系作为文本分类的重要参考项,克服了传统贝叶斯分类算法在分类器训练上对语义分析的忽视。实验结果表明,MWB在垃圾文本过滤上具有更好的分类性能。
中图分类号:
路金泉,徐开勇,戴乐育. 基于文本过滤的贝叶斯分类算法的改进[J]. 计算机与现代化, 2016, 0(9): 100-103+108.
LU Jin-quan, XU Kai-yong,Dai Le-yu. Improvement of Bayes Classification Algorithm Based on Text Filtering[J]. Computer and Modernization, 2016, 0(9): 100-103+108.
[1] 中国互联网信息中心. 中国互联网信息中心第36次中国互联网络发展状况统计报告[R/OL]. http://www.cnnic.cn/hlwfzyj/hlwxzbg/hlwtjbg/201507/P0201507235495006670-87.pdf, 2015-07. [2] 徐健锋,许圆,许元辰,等. 基于语义理解和机器学习的混合的中文文本情感分类算法框架[J]. 计算机科学, 2015,42(6):61-66. [3] 石海明,曾华峰. 科技与战争视角下的国家认知空间安全战略[J]. 国防科技, 2014,35(3):83-87. [4] Luo Xi, Ohyama Wa, Wakabayashi T, et al. Improvement of automatic Chinese text classification by combining multiple features[J]. Transactions on Electrical and Electronic Engineering, 2015,10(2):166-174. [5] 许珂,蒙祖强,林啓峰. 基于语义关联和信息增益的TFIDF改进算法研究[J]. 计算机应用研究, 2012,29(2):557-560. [6] 马兆才. 文本分类中的两阶段特征降维[J]. 甘肃科技, 2014,30(20):27-29. [7] 邓一贵,伍玉英. 基于文本内容的敏感词决策树信息过滤算法[J]. 计算机工程, 2014,40(9):300-304. [8] 黄贤英,陈红阳,刘英涛,等. 一种新的微博短文本特征词选择算法[J]. 计算机工程与科学, 2015,37(9):1761-1767. [9] 中国科学院计算技术研究所. 汉语词法分析系统ICTCLAS[EB/OL]. http://www.ict.ac.cn/jszy/jsxk_zlxk/mfxk/200706/t20070628_2121143.html, 2016-03-21. [10]郑炜,沈文,张英鹏. 基于改进朴素贝叶斯算法的垃圾邮件过滤器的研究[J]. 西北工业大学学报, 2010,28(4):622-627. [11]张宁,贾自艳,史忠植. 使用KNN算法的文本分类[J]. 计算机工程, 2005,31(8):171-172. [12]赵辉. 支持向量机分类方法及其在文本分类中的应用研究[D]. 大连:大连理工大学, 2005. [13]刘钢. 基于神经网络的文本分类系统NNTCS的设计和实现[D]. 北京:中国科学院(软件研究所), 2003. [14]张青. 决策树分类算法的研究与改进[D]. 郑州:郑州大学, 2002. [15]Otsuka T, Deng Deyue, Ito T. Text filtering for harmful document classification using three-word co-occurrence and large-scale data processing[J]. Electronics and Communications in Japan, 2015,98(10):168-175. [16]Guo Xiaoli, Sun Huiyu, Zhou Tiehua. SAW classification algorithm for Chinese text classification[J]. Sustainability, 2015,7(3):2338-2352. [17]Manning C D, Raghavan P, Schütze H. Introduction to Information Retrieval[M]. 王斌,译. 北京:人民邮电出版社, 2010:175-199. [18]数据堂. 新浪微博积极、消极、矛盾微博数据[EB/OL]. http://www.datatang.com/data/47209, 2015-05-07. |
[1] | 李德友1, 2, 余劲松弟1, 2, 魏丹丹1, 2, 罗源1, 2, 佟瑞菊3. 面向格网化立方体元数据的抽象树模型[J]. 计算机与现代化, 2024, 0(11): 1-6. |
[2] | 邱 玲1, 2, 宋 智1, 2, 吕 爽1, 2, 杨 雪1, 2. 数据同步技术在气象大数据云平台对外服务中的应用[J]. 计算机与现代化, 2024, 0(07): 76-81. |
[3] | 杨 柯1, 潘大志1, 2, 池 莹1. 改进蜉蝣算法求解工艺规划与调度集成问题[J]. 计算机与现代化, 2024, 0(04): 92-98. |
[4] | 范良俊1, 彭振皖1, 王 晨2, 于泓涛2, 梁 振1. 基于YAML的iOS应用开发框架[J]. 计算机与现代化, 2024, 0(04): 115-120. |
[5] | 王子琛, 瞿有利. 基于CRF的分区倒排索引压缩算法[J]. 计算机与现代化, 2024, 0(02): 36-42. |
[6] | 王晓霞, 孟佳娜, 江 烽, 丁梓晴. 基于多视图的知识感知推荐系统#br#[J]. 计算机与现代化, 2024, 0(02): 100-107. |
[7] | 林 威. 基于自监督学习和数据回放的新闻推荐模型增量学习方法[J]. 计算机与现代化, 2023, 0(12): 1-6. |
[8] | 柴 荔, 王 萧, 龚嘉豪, 汪 洋, 吉顺慧, 张鹏程. 面向供应链的共识算法研究综述[J]. 计算机与现代化, 2023, 0(11): 22-27. |
[9] | 王重阳, 庄 毅. 基于SDN和改进CSA算法的多作业集群的负载均衡算法[J]. 计算机与现代化, 2023, 0(11): 28-35. |
[10] | 王光辉, 程功旭, 李 青. 基于区块链技术的电力物资共享云仓设计[J]. 计算机与现代化, 2023, 0(10): 99-106. |
[11] | 沈加炜, 陆一鸣, 陈晓艺, 钱美玲, 陆卫忠, . 基于深度学习的人体行为检测方法研究综述[J]. 计算机与现代化, 2023, 0(09): 1-9. |
[12] | 顾成伟, 丁 勇, 李登华. 基于计算机视觉的工业厂区人员安全警戒系统[J]. 计算机与现代化, 2023, 0(09): 20-26. |
[13] | 刘瑞雪, 李 文, 刘 芳, 杜守国. 用于具有缺失值的时间序列预测的张量自回归补全算法[J]. 计算机与现代化, 2023, 0(09): 51-58. |
[14] | 毛明扬, 徐胜超. 面向粒子群优化BP神经网络的粗糙集连续属性离散化算法[J]. 计算机与现代化, 2023, 0(09): 115-119. |
[15] | 陈嘉敏, 张伯泉, 麦海鹏. 基于特征融合的海马体分割[J]. 计算机与现代化, 2023, 0(08): 1-6. |
阅读次数 | ||||||
全文 |
|
|||||
摘要 |
|
|||||