收稿日期:
2018-09-06
出版日期:
2019-04-08
发布日期:
2019-04-10
作者简介:
李富星(1993-),男,湖北十堰人,硕士研究生,研究方向:数据挖掘,E-mail: xingf_lee93@126.com; 蒙祖强(1974-),广西罗城人,男,教授,博士,研究方向:大数据智能,跨媒体挖掘,知识发现。
基金资助:
Received:
2018-09-06
Online:
2019-04-08
Published:
2019-04-10
摘要: 传统类别区分词特征选择算法以类间分散度和类内重要度作为度量指标,忽略了2个指标对特征评分函数的贡献权重往往不同这一事实,从而在一定程度上影响了特征选择效果。在类别区分词特征选择算法基础上,引入平衡因子,通过调节平衡因子来调整2个指标对特征评价函数的贡献权重,完成更加高效的特征选择,进而达到更好的文本分类效果。使用朴素贝叶斯算法进行文本分类,相比主流特征选择算法,改进算法在分类准确率、查准率、查全率和F1指标上都取得了可观的性能提升。
中图分类号:
李富星,蒙祖强 . 一种改进的类别区分词特征选择算法[J]. 计算机与现代化, doi: 10.3969/j.issn.1006-2475.2019.03.014.
LI Fu-xing,MENG Zu-qiang . An Improved Feature Selection Algorithm Based on Category Distinguished Words[J]. Computer and Modernization, doi: 10.3969/j.issn.1006-2475.2019.03.014.
[1] 周茜,赵明生,扈旻. 中文文本分类中的特征选择研究[J]. 中文信息学报, 2004,18(3):17-23. [2] WU G, XU J. Optimized approach of feature selection based on information gain[J]. Computer Engineering & Applications, 2011,47(12):157-161. [3] 刘海峰,刘守生,宋阿羚. 基于词频分布信息的优化IG特征选择方法[J]. 计算机工程与应用, 2017,53(4):113-117. [4] 郭亚维, 刘晓霞. 文本分类中信息增益特征选择方法的研究[J]. 计算机工程与应用, 2012, 48(27):119-122. [5] LI Y H. Text feature selection algorithm based on CHI-square rank correlation factorization[J]. Journal of Interdisciplinary Mathematics, 2017,20(1):153-160. [6] CAI Z, WANG J, LIU J. Novel feature selection algorithm for Chinese text categorization based on CHI[C]// IEEE International Conference on Signal Processing. IEEE, 2017:1035-1039. [7] 吴金源, 冀俊忠, 赵学武,等. 基于特征选择技术的情感词权重计算[J]. 北京工业大学学报, 2016, 42(1):142-151. [8] WANG H. Study on the application of feature selection for big text data using expected cross entropy[J]. Journal of Information & Computational Science, 2015,12(18):6835-6843. [9] 单丽莉, 刘秉权, 孙承杰. 文本分类中特征选择方法的比较与改进[J]. 哈尔滨工业大学学报, 2011(S1):319-324. [10]周奇年,张振浩,徐登彩. 用于中文文本分类的基于类别区分词的特征选择方法[J]. 计算机应用与软件, 2013,30(3):193-195. [11]李铂鑫. 文本分类中基于综合度量特征选择算法的研究[D]. 武汉:华中科技大学, 2015. [12]阿不都萨拉木·达吾提, 于斯音·于苏普, 艾斯卡尔·艾木都拉. 类别区分词与情感词典相结合的维吾尔文句子情感分类[J]. 清华大学学报(自然科学版), 2017(2):197-201. [13]YANG Y, PEDERSEN J O. A comparative study on feature selection in text categorization[C]// The 14th International Conference on Machine Learning. Morgan Kaufmann Publishers Inc., 1997:412-420. [14]GAO Z, XU Y, MENG F, et al. Improved information gain-based feature selection for text categorization[C]// IEEE International Conference on Wireless Communications, Vehicular Technology, Information Theory and Aerospace & Electronic Systems. 2014:1-5. [15]范小丽,刘晓霞. 文本分类中互信息特征选择方法的研究[J]. 计算机工程与应用, 2010,46(34):123-125. [16]LIU Y, CHEN F, KONG W, et al. Identifying Web spam with the wisdom of the crowds[J]. ACM Transactions on the Web, 2012,6(1):1-30. [17]DEBOLE F , SEBASTIANI F . An analysis of the relative hardness of Reuters-21578 subsets[J]. Journal of the American Society for Information Science and Technology, 2014,56(6):584-596. [18]TONG S, KOLLER. Support vector machine active learning with application to text classification[J]. Machine Learning Research, 2002,2(1):999-1006. [19]TANG B, HE H, BAGGENSTOSS P M, et al. A Bayesian classification approach using class-specific features for text categorization[J]. IEEE Transactions on Knowledge & Data Engineering, 2016,28(6):1602-1606. [20]TANG B, KAY S, HE H. Toward Optimal Feature Selection in Naive Bayes for Text Categorization[M]. IEEE Educational Activities Department, 2016. [21]江小平, 李成华, 向文,等. 云计算环境下朴素贝叶斯文本分类算法的实现[J]. 计算机应用, 2011, 31(9):2551-2554. [22]周志华. 机器学习[M]. 北京:清华大学出版社, 2016:30-32. [23]MA L, LU Z, SHANG L, et al. Multimodal convolutional neural networks for matching image and sentence[C]// IEEE International Conference on Computer Vision. IEEE Computer Society, 2015:2623-2631. |
[1] | 王可1,2,李晖1,2,陈梅1,2,戴震宇1,2,朱明3. 一种面向工作负载预测的基于小波变换的特征提取方法[J]. 计算机与现代化, 2020, 0(05): 1-. |
[2] | 彭路1,朱君2,邹云峰2. 基于深度神经网络的电力客户诉求预判[J]. 计算机与现代化, 2020, 0(05): 22-. |
[3] | 史明华,吴广潮. 基于聚类混合采样的不平衡数据分类[J]. 计算机与现代化, 2020, 0(05): 34-. |
[4] | 张文华,张志俊. 基于SVM的新能源公交车运营里程核查方法[J]. 计算机与现代化, 2020, 0(05): 39-. |
[5] | 胡全贵,赵恩来,贾伟昭,开北强. 数据中心巡检机器人信息平台实时任务容错调度算法[J]. 计算机与现代化, 2020, 0(05): 50-. |
[6] | 罗伟,梁世豪,姜鑫,安妮,杜锐. 基于深度学习的野外露头区岩石裂缝识别[J]. 计算机与现代化, 2020, 0(05): 56-. |
[7] | 吴世海,鲍义东,陈果,陈秋实. 基于随机Gabor特征的半参考农作物图像质量评价方法[J]. 计算机与现代化, 2020, 0(05): 70-. |
[8] | 郭建龙1,熊山1,李晓莹2,祁彦威2,吴澄凯3. 基于主变起火应急演练的虚拟现实培训系统[J]. 计算机与现代化, 2020, 0(05): 75-. |
[9] | 薛伟莲,赵娣,张颖超. 室内定位研究综述[J]. 计算机与现代化, 2020, 0(05): 80-. |
[10] | 周丽1,2,申国伟1,2,赵文波1,2,周雪梅1,2. 一种基于GAN的异构信息网络表示学习方法[J]. 计算机与现代化, 2020, 0(05): 89-. |
[11] | 刘勃1,王明伟2,常立博3. 老年人运动状态监测和跌倒报警系统[J]. 计算机与现代化, 2020, 0(05): 101-. |
[12] | 郝敏,刘航,李扬,简单,王俊影. 基于聚类分析与说话人识别的语音跟踪[J]. 计算机与现代化, 2020, 0(04): 7-. |
[13] | 王志平,郑宝友,刘仪伟. 一种改进的LSTM模型在图像标题生成中的应用[J]. 计算机与现代化, 2020, 0(04): 37-. |
[14] | 李灵杰1,童晶1,2,步文瑜1,孙海舟1,陈正鸣1,2. 基于模板匹配的三维人体语义特征提取算法[J]. 计算机与现代化, 2020, 0(04): 95-. |
[15] | 付磊,任德均,胡云起,郜明,邱吕. 基于ResNet网络的医用塑瓶制造缺陷检测方法[J]. 计算机与现代化, 2020, 0(04): 104-. |
阅读次数 | ||||||
全文 |
|
|||||
摘要 |
|
|||||