计算机与现代化 ›› 2019, Vol. 0 ›› Issue (03): 73-.doi: 10.3969/j.issn.1006-2475.2019.03.014
收稿日期:
2018-09-06
出版日期:
2019-04-08
发布日期:
2019-04-10
作者简介:
李富星(1993-),男,湖北十堰人,硕士研究生,研究方向:数据挖掘,E-mail: xingf_lee93@126.com; 蒙祖强(1974-),广西罗城人,男,教授,博士,研究方向:大数据智能,跨媒体挖掘,知识发现。
基金资助:
Received:
2018-09-06
Online:
2019-04-08
Published:
2019-04-10
摘要: 传统类别区分词特征选择算法以类间分散度和类内重要度作为度量指标,忽略了2个指标对特征评分函数的贡献权重往往不同这一事实,从而在一定程度上影响了特征选择效果。在类别区分词特征选择算法基础上,引入平衡因子,通过调节平衡因子来调整2个指标对特征评价函数的贡献权重,完成更加高效的特征选择,进而达到更好的文本分类效果。使用朴素贝叶斯算法进行文本分类,相比主流特征选择算法,改进算法在分类准确率、查准率、查全率和F1指标上都取得了可观的性能提升。
中图分类号:
李富星,蒙祖强 . 一种改进的类别区分词特征选择算法[J]. 计算机与现代化, 2019, 0(03): 73-.
LI Fu-xing,MENG Zu-qiang . An Improved Feature Selection Algorithm Based on Category Distinguished Words[J]. Computer and Modernization, 2019, 0(03): 73-.
[1] 周茜,赵明生,扈旻. 中文文本分类中的特征选择研究[J]. 中文信息学报, 2004,18(3):17-23. [2] WU G, XU J. Optimized approach of feature selection based on information gain[J]. Computer Engineering & Applications, 2011,47(12):157-161. [3] 刘海峰,刘守生,宋阿羚. 基于词频分布信息的优化IG特征选择方法[J]. 计算机工程与应用, 2017,53(4):113-117. [4] 郭亚维, 刘晓霞. 文本分类中信息增益特征选择方法的研究[J]. 计算机工程与应用, 2012, 48(27):119-122. [5] LI Y H. Text feature selection algorithm based on CHI-square rank correlation factorization[J]. Journal of Interdisciplinary Mathematics, 2017,20(1):153-160. [6] CAI Z, WANG J, LIU J. Novel feature selection algorithm for Chinese text categorization based on CHI[C]// IEEE International Conference on Signal Processing. IEEE, 2017:1035-1039. [7] 吴金源, 冀俊忠, 赵学武,等. 基于特征选择技术的情感词权重计算[J]. 北京工业大学学报, 2016, 42(1):142-151. [8] WANG H. Study on the application of feature selection for big text data using expected cross entropy[J]. Journal of Information & Computational Science, 2015,12(18):6835-6843. [9] 单丽莉, 刘秉权, 孙承杰. 文本分类中特征选择方法的比较与改进[J]. 哈尔滨工业大学学报, 2011(S1):319-324. [10]周奇年,张振浩,徐登彩. 用于中文文本分类的基于类别区分词的特征选择方法[J]. 计算机应用与软件, 2013,30(3):193-195. [11]李铂鑫. 文本分类中基于综合度量特征选择算法的研究[D]. 武汉:华中科技大学, 2015. [12]阿不都萨拉木·达吾提, 于斯音·于苏普, 艾斯卡尔·艾木都拉. 类别区分词与情感词典相结合的维吾尔文句子情感分类[J]. 清华大学学报(自然科学版), 2017(2):197-201. [13]YANG Y, PEDERSEN J O. A comparative study on feature selection in text categorization[C]// The 14th International Conference on Machine Learning. Morgan Kaufmann Publishers Inc., 1997:412-420. [14]GAO Z, XU Y, MENG F, et al. Improved information gain-based feature selection for text categorization[C]// IEEE International Conference on Wireless Communications, Vehicular Technology, Information Theory and Aerospace & Electronic Systems. 2014:1-5. [15]范小丽,刘晓霞. 文本分类中互信息特征选择方法的研究[J]. 计算机工程与应用, 2010,46(34):123-125. [16]LIU Y, CHEN F, KONG W, et al. Identifying Web spam with the wisdom of the crowds[J]. ACM Transactions on the Web, 2012,6(1):1-30. [17]DEBOLE F , SEBASTIANI F . An analysis of the relative hardness of Reuters-21578 subsets[J]. Journal of the American Society for Information Science and Technology, 2014,56(6):584-596. [18]TONG S, KOLLER. Support vector machine active learning with application to text classification[J]. Machine Learning Research, 2002,2(1):999-1006. [19]TANG B, HE H, BAGGENSTOSS P M, et al. A Bayesian classification approach using class-specific features for text categorization[J]. IEEE Transactions on Knowledge & Data Engineering, 2016,28(6):1602-1606. [20]TANG B, KAY S, HE H. Toward Optimal Feature Selection in Naive Bayes for Text Categorization[M]. IEEE Educational Activities Department, 2016. [21]江小平, 李成华, 向文,等. 云计算环境下朴素贝叶斯文本分类算法的实现[J]. 计算机应用, 2011, 31(9):2551-2554. [22]周志华. 机器学习[M]. 北京:清华大学出版社, 2016:30-32. [23]MA L, LU Z, SHANG L, et al. Multimodal convolutional neural networks for matching image and sentence[C]// IEEE International Conference on Computer Vision. IEEE Computer Society, 2015:2623-2631. |
[1] | 何思达, 陈平华. 基于意图的轻量级自注意力序列推荐模型[J]. 计算机与现代化, 2024, 0(12): 1-9. |
[2] | 郑久超, 赵新元. 基于主题与描述信息的实体链接方法[J]. 计算机与现代化, 2024, 0(12): 10-14. |
[3] | 赵晨阳, 薛涛, 刘俊华. 基于改进Stable Diffusion的时尚服饰图案生成[J]. 计算机与现代化, 2024, 0(12): 15-23. |
[4] | 黄庭培1, 马禄彪1, 李世宝2, 刘建航1. 基于WiFi和原型网络的手势识别方法[J]. 计算机与现代化, 2024, 0(12): 34-39. |
[5] | 刘云海1, 冯广1, 吴晓婷2, 杨群2. 复杂施工场景下的安全帽佩戴检测算法[J]. 计算机与现代化, 2024, 0(12): 66-71. |
[6] | 王艳媛, 茅正冲. 中英文场景文本图像的检测和识别算法[J]. 计算机与现代化, 2024, 0(12): 84-90. |
[7] | 张昆1, 张永伟1, 吴永城1, 张笑文2, 翟世臣2. 基于大模型的设备故障知识图谱自动构建方法[J]. 计算机与现代化, 2024, 0(11): 46-53. |
[8] | 张志霞, 秦志毅. 基于变分模态分解和IGJO-SVR的网络舆情预测[J]. 计算机与现代化, 2024, 0(11): 77-83. |
[9] | 万鸿炜, 陈平华. 基于Involution算子和协调反向注意力的息肉图像分割[J]. 计算机与现代化, 2024, 0(11): 84-90. |
[10] | 张宇1, 2, 黎靖1, 2, 马铭1, 2, 王众祥1, 2, 孙妍1, 2. YOLOLW:一个新的轻量级目标检测模型[J]. 计算机与现代化, 2024, 0(11): 91-98. |
[11] | 董玉玟. 基于改进YOLOv7-tiny的多尺度运动目标检测算法[J]. 计算机与现代化, 2024, 0(11): 99-105. |
[12] | 祁贤, 刘大铭, 常佳鑫. 基于改进自注意力机制的多视图三维重建[J]. 计算机与现代化, 2024, 0(11): 106-112. |
[13] | 陈凯1, 李宜汀1, 2, 全华凤1 . 基于改进YOLOv8的河道废弃瓶检测方法[J]. 计算机与现代化, 2024, 0(11): 113-120. |
[14] | 杨庆五, 罗小辉, 刘鑫. 基于Edge Drawing的工业图像圆检测算法[J]. 计算机与现代化, 2024, 0(11): 121-126. |
[15] | 周安达, 唐超颖. 雨天道路场景语义分割算法及其移动端部署[J]. 计算机与现代化, 2024, 0(10): 7-13. |
阅读次数 | ||||||
全文 |
|
|||||
摘要 |
|
|||||